10万+,超大规模人手交互视频数据集!面向可泛化机器人操作|CVPR 2025

香港中文大学(深圳)发布TASTE-Rob数据集,包含100,856个精准匹配语言指令的第一视角交互视频。该团队提出三阶段视频生成流程优化手部姿态,显著提升视频真实感和机器人操作准确度。