计算机视觉归档 - 第2页共6页

李飞飞自曝详细创业经历：五年前因眼睛受伤，坚定要做世界模型

2025年6月9日23时作者量子位

做世界模型的决心。
在a16z的最新播客节目中，“AI教母”李飞飞讲述了五年前因为一次角膜损伤暂时失

2025年6月6日8时作者开源星探

Agentic-Doc 是一款强大的Python库，专为从复杂文档中提取结构化数据而设计。它支持PDF、图片和URL等多种格式，并通过计算机视觉和LLM实现精准解析表格、图表、图片等信息。

2025年6月5日23时作者量子位

AI模型Modify Video可以重新想象任何视频，实现精准的场景、动作编辑和风格迁移，保留原始人物的动作形态。它通过动捕功能使角色动作复刻得几乎完美，并支持多种元素编辑操作。

2025年5月21日16时作者 PaperWeekly

（例如 RLHF 和 DPO）通过微调模型参数来实现偏好优化。然而，这种“训练时对齐”模式不仅耗时耗

2025年5月17日8时作者机器之心

模型（MLLMs）在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而，早期的 MLLMs

2025年5月14日23时作者极市干货

O（You Only Look Once）系列模型自2015年推出以来，彻底变革了目标检测领域，以其

2025年5月9日16时作者量子位

Meta FAIR新负责人Rob Fergus回归，并接替离职的前一任负责人Joelle Pineau。FAIR的新目标是高级机器智能（AGI）。Rob Fergus是一位多产学者，曾在谷歌DeepMind和Facebook AI Research实验室工作。

2025年5月6日16时作者量子位

谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》（DSN）今年获AISTATS时间检验奖。该论文提出中间层监督思想，继承并发展了后续作品REPA和U-REPA，对计算机视觉领域产生了深远影响。

2025年5月6日16时作者量子位

阿里通义实验室高层薄列峰离职，加入某互联网大厂担任多模态模型部副总经理。此前，通义实验室已有两位核心负责人鄢志杰和黄非离职。薄列峰曾带领团队开发了通义App上的爆款功能。