
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

-
High-level Planner:高层规划由预训练的大型视觉语言模型(VLM)实现,可理解多样化指令、自主决定抓取策略。
-
Low-level Controller:低层扩散策略通过实时视觉反馈,闭环掌握目标物体,智能涌现出灵巧操作能力。

-
根据语言指令分辨出目标物体,处理堆叠场景下的目标物体的检索并抓取
-
抓取速度快(所有视频无加速,同类工作中节拍较快),闭环姿态矫正与重抓取能力(ReGrasp)
-
大脑具有 CoT 长程推理能力:自主推理抓取顺序并将所有物体依次抓取

-
网站:https://dexgraspvla.github.io/
-
论文:https://arxiv.org/abs/2502.20900
-
代码:https://github.com/Psi-Robot/DexGraspVLA


-
论文:https://arxiv.org/abs/2502.18423
-
网站:https://changwinde.github.io/RetrDex/
-
网站:https://tangty11.github.io/ExDex/



-
网站:https://sites.google.com/view/pku-safevla
(文:机器之心)