PaperAgent

OCR噪声直接命中了RAG的软肋~

下午2时 2024/12/16 作者 PaperAgent

在RAG系统中，基于OCR的非结构化PDF文档抽取导致知识库中的语义噪声和格式噪声问题，影响RAG系统的性能。OHRBench评估了当前OCR解决方案，并推荐使用Marker实现最佳检索性能，但所有解决方案仍存在性能下降。

下午6时 2024/12/14 作者 PaperAgent

OpenAI 联合创始人 Ilya Sutskever 在 NeurIPS 2024 上演讲，认为数据资源接近极限且预训练模型即将终结，未来 AI 将更依赖于自主智能体和合成数据，并可能达到超级智能状态。

下午10时 2024/12/13 作者 PaperAgent

OpenAI发布phi-4语言模型，采用改进的数据质量和训练方法提升了14B参数模型的性能。核心包括合成数据预训练、有机数据策展及后训练技术。

下午10时 2024/12/13 作者 PaperAgent

DeepSeek-VL2是先进的大型混合专家视觉-语言模型系列，显著改进了其前身DeepSeek-VL，在包括视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位等多种任务上表现出卓越的能力。

下午2时 2024/12/12 作者 PaperAgent

谷歌发布Gemini 2.0 Flash AI多模态模型，在快速响应下提供增强性能，支持图像、视频及音频等多模式输入输出，能调用Google搜索和代码执行工具。项目Astra探索通用AI助手功能，Project Mariner从浏览器开始研究人机交互未来；Jules帮助开发人员。

下午10时 2024/12/10 作者 PaperAgent

HtmlRAG通过使用HTML而非纯文本作为外部知识的格式，在长上下文环境下提高了检索系统的效果，并在多个问答数据集上优于或等同于现有基于纯文本的方法。

下午2时 2024/12/08 作者 PaperAgent

OpenAI推出强化微调RFT技术，通过监督式微调和在线PPO算法进一步微调模型，在GSM8K等数据集上显著提升性能，相比传统SFT方法效果更优。

上午11时 2024/12/05 作者 PaperAgent

OpenAI即将举办为期12天的年终活动，包括Agents、full-o1版本发布、Sora版本发布、‘猎户座’/GPT-5版本发布等亮点内容，引发网友期待。

下午5时 2024/12/03 作者 PaperAgent

腾讯开源HunyuanVideo推理代码和模型权重，这是一个超过130亿参数的视频基础模型，在视觉质量、运动多样性等方面超越现有先进模型。

下午1时 2024/12/03 作者 PaperAgent

本文综述了LLM驱动的GUI智能体的发展和进步，讨论了它们的历史演变、核心组件和技术，并展示了智能体如何通过自然语言处理技术执行多种任务，包括Word、Photos、浏览器、Adobe Acrobat和PowerPoint操作等。