两阶段方法归档

字节开源高效解析文档图像的新型多模态模型Dolphin，快速将复杂的文档图像转化为结构化数据。

下午4时 2025/05/27 作者 GitHubStore

Dolphin是基于单一视觉语言模型的两阶段文档图像解析模型，采用自然阅读顺序生成元素序列和异构锚点提示进行高效并行解析。支持页面级和元素级解析，性能卓越。

下午4时 2025/04/24 作者机器之心

研究团队提出ManipTrans方法，通过两阶段迁移学习实现从人类手到机械灵巧手的操作技能转移。该方法利用通用轨迹模仿器预训练模型模仿人类手部动作，并引入残差学习模块对动作进行精细调整。同时发布DexManipNet大规模数据集用于验证。