多模态方向开源数据集资源汇总

MINT-1T 数据集是一个 1 万亿个文本标记和 34 亿张图像的开源数据集,扩展了现有开源数据集的 10 倍。WuDaoCorpora 是一个由北京智源人工智能研究院构建的大规模、高质量数据集。Conceptual Captions 提供超过 300 万张带有自然语言字幕的配对图像。SBU Captions 数据集中有 100 万带标题的照片描述图像。MiniGPT-4 使用高质量图文对进行微调,Ego-Exo4D 包含三种精心同步的语言视频数据集。

Figure机器人进厂打工,8小时速成物流分拣大师!自研VLA模型全面升级

Figure公司通过自研VLA模型Helix,在8小时内训练完成机器人包裹分拣任务,并实现超越人类的效率和精度,展示了视觉-运动控制策略在物流场景中的巨大潜力。

马斯克:xAI 将发布超越 DeepSeek 的模型!

马斯克在视频中表示xAI即将发布比DeepSeek更强大的模型,并强调中国工程师潜力巨大。不过他也指出xAI拥有全球最大的GPU集群、独特的人工强化学习模式以及X平台的海量训练数据等优势,力挺自己团队的技术储备。