机器之心
数据不够致Scaling Law撞墙?CMU和DeepMind新方法可让VLM自己生成记忆
CMU 和 Google DeepMind 的研究提出了一种名为 ICAL 的方法,通过使用低质量数据和反馈来生成有效的提示词,改善 VLM 和 LLM 从经验中提取见解的能力,从而解决高质量数据不足的问题。
AAAI 2025 IML领域首个稀疏化视觉Transformer,代码已开源
SparseViT 是一种新的图像篡改检测模型,利用非语义信息替代手工制作的手工特征提取器。通过稀疏自注意力机制,它提高了计算效率并增强了模型对复杂场景的适应性。
Agents Are Not Enough? !
本周解读了AI Agent在2024年的发展情况及面临的技术障碍,以及如何结合机器学习与符号人工智能帮助Agent解决落地问题,文中还提到了人形机器人和AI科学家的相关信息。
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷
本文介绍了一篇关于视觉语言动作模型(VLAs)的论文,提出了RoboVLMs模型来解决机器人领域的多个任务。文章通过实验提出了一些设计准则,包括选择合适的基座模型和在预训练阶段引入跨本体数据等。