计算机视觉
PDF解剖大师来了!LandingAI开源神器,这个Python库让百页文档秒变结构化数据!
Agentic-Doc 是一款强大的Python库,专为从复杂文档中提取结构化数据而设计。它支持PDF、图片和URL等多种格式,并通过计算机视觉和LLM实现精准解析表格、图表、图片等信息。
抽象小视频秒变特效大片:原视频精髓不变角色环境任意换,Luma出品
AI模型Modify Video可以重新想象任何视频,实现精准的场景、动作编辑和风格迁移,保留原始人物的动作形态。它通过动捕功能使角色动作复刻得几乎完美,并支持多种元素编辑操作。
ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%
模型(MLLMs)在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而,早期的 MLLMs
顶尖科学家Rob Fergus重掌FAIR,15万引用学者回归Meta,战略转向AGI
Meta FAIR新负责人Rob Fergus回归,并接替离职的前一任负责人Joelle Pineau。FAIR的新目标是高级机器智能(AGI)。Rob Fergus是一位多产学者,曾在谷歌DeepMind和Facebook AI Research实验室工作。
被拒稿11年后翻盘获时间检验奖,DSN作者谢赛宁:拒稿≠学术死刑
谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》(DSN)今年获AISTATS时间检验奖。该论文提出中间层监督思想,继承并发展了后续作品REPA和U-REPA,对计算机视觉领域产生了深远影响。
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
阿里通义实验室高层薄列峰离职,加入某互联网大厂担任多模态模型部副总经理。此前,通义实验室已有两位核心负责人鄢志杰和黄非离职。薄列峰曾带领团队开发了通义App上的爆款功能。