华中科技大学归档

狂揽2.6k stars，MonkeyOCR-3B在英文文档解析任务上超越72B模型，性能达SOTA

2025年6月24日23时作者 HyperAI超神经

华中科技大学联合金山办公推出文档解析模型MonkeyOCR，在处理包含公式和表格的复杂文档时表现出色，提升了15.0%和8.6%的性能。

MonkeyOCR：华科开源高效文档解析模型，精度超越闭源大模型、速度还更快！

2025年6月23日23时作者极市干货

华中科技大学开发的MonkeyOCR文档解析模型在OmniDocBench数据集上取得显著成果，相比MinerU、Qwen2.5-VL等开源和闭源大模型，在中文内容识别方面表现出色。该模型采用结构-识别-关系(SRR)三元组方法，并基于大规模标注数据集MonkeyDoc进行训练。

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

2025年6月7日16时作者量子位

近年来多模态大模型在理解和复杂推理任务中取得进展，但其对高分辨率图像（如地铁图）的理解能力仍存争议。为此，西湖大学、新加坡国立大学等团队提出ReasonMap评测基准，聚焦于高分辨率交通图的多模态推理，发现当前开源模型存在性能瓶颈，并指出强化学习后训练模型在某些维度上优于现有模型。

华中科技大学的研究者发了一篇MCP的综述论文

2025年4月28日8时作者 NLP工程化

华中科技大学研究者发表MCP综述论文，全面分析其生态系统、架构及安全风险，并提出未来研究方向。

闭环端到端精度暴涨19.61%！华科&小米汽车联手打造自动驾驶框架ORION，代码将开源

2025年4月11日11时作者机器之心

本文提出了一种新的端到端自动驾驶框架ORION，通过引入QT-Former聚合历史场景信息、VLM进行场景理解与指令生成以及生成模型对齐推理空间和动作空间，实现在闭环评测数据集Bench2Drive上的优异性能。

CVPR 2025｜超强异常检测新方法！INP-Former 从单张图像中提取正常模式

2025年4月9日23时作者极市干货

清华大学和华中科技大学的研究团队提出了一种新型异常检测方法INP-Former，通过从单张测试图像中动态提取内在正常原型（INPs），并利用这些INPs指导图像重建，实现了卓越的性能和强大的泛化能力。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 CVPR HighLight

2025年4月8日16时作者量子位

华中科大等机构提出Holmes-VAU模型及HIVAU-70k数据集，显著提升视频异常理解能力。该模型在长视频中采用动态稀疏采样策略，结合多层级指令数据实现准确的异常检测和分析。

可灵接入DeepSeek-R1，一手实测在此：AI视频创作，不用学写提示词了

2025年3月19日11时作者量子位

可灵视频生成产品接入R1后，通过调用AI助手设计提示词，即使输入单个字也能精准生成相关视频。DeepSeek帮助设计的提示词不仅扩充细节，还能将复杂抽象的内容具体化。新成果ReCamMaster则是镜头可控的生成式视频再渲染框架，支持多种镜头操作重现复杂场景。

CVPR 2025 满分论文！重建 vs 生成：解决扩散模型中的优化难题

2025年3月12日23时作者极市干货

本文提出了一种名为VA-VAE的方法，通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐，解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256×256生成任务上取得了最佳性能，FID得分1.35，并在64个epoch内达到2.11的FID得分，显著提升了训练效率。

一夜刷屏AI圈！Manus：这不是聊天机器人，是你的“AI打工仔”！

2025年3月7日8时作者开源星探

这届AI终于学会‘动手’了！一款名为Manus的AI智能体在3月5日晚发布后迅速火爆。它能够独立思考、规划并执行复杂任务，交付完整成果，不仅是聊天机器人，更是一个能自主学习、调用各类工具、记忆用户偏好及云端异步运行的数字大脑。这款由中国团队研发的应用因强大的能力而备受关注，如简历筛选、房地产研究和股票分析等任务都可轻松完成。Manus在权威基准测试中的表现优异，并被宣传未来可能免费开放。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31