PaperAgent

谷歌Gemini 2.0归来仍然是Agentic！

下午2时 2024/12/12 作者 PaperAgent

谷歌发布Gemini 2.0 Flash AI多模态模型，在快速响应下提供增强性能，支持图像、视频及音频等多模式输入输出，能调用Google搜索和代码执行工具。项目Astra探索通用AI助手功能，Project Mariner从浏览器开始研究人机交互未来；Jules帮助开发人员。

下午10时 2024/12/10 作者 PaperAgent

HtmlRAG通过使用HTML而非纯文本作为外部知识的格式，在长上下文环境下提高了检索系统的效果，并在多个问答数据集上优于或等同于现有基于纯文本的方法。

下午2时 2024/12/08 作者 PaperAgent

OpenAI推出强化微调RFT技术，通过监督式微调和在线PPO算法进一步微调模型，在GSM8K等数据集上显著提升性能，相比传统SFT方法效果更优。

上午11时 2024/12/05 作者 PaperAgent

OpenAI即将举办为期12天的年终活动，包括Agents、full-o1版本发布、Sora版本发布、‘猎户座’/GPT-5版本发布等亮点内容，引发网友期待。

下午5时 2024/12/03 作者 PaperAgent

腾讯开源HunyuanVideo推理代码和模型权重，这是一个超过130亿参数的视频基础模型，在视觉质量、运动多样性等方面超越现有先进模型。

下午1时 2024/12/03 作者 PaperAgent

本文综述了LLM驱动的GUI智能体的发展和进步，讨论了它们的历史演变、核心组件和技术，并展示了智能体如何通过自然语言处理技术执行多种任务，包括Word、Photos、浏览器、Adobe Acrobat和PowerPoint操作等。

下午12时 2024/12/02 作者 PaperAgent

本文综述了卡内基梅隆大学关于RAG（检索增强生成）技术的研究，介绍了其基本原理、架构、应用领域及面临的挑战和发展前景。

下午12时 2024/12/02 作者 PaperAgent

一周前谷歌的Gemini-Exp-1114模型取代GPT-4o成为AI多模态大模型榜首。但GPT-4o更新后再次夺回第一。谷歌和OpenAI在多模态大模型上的竞争激烈，技术正向原生多模态方向发展。多位审稿人将在12月6日带来关于多模态大模型的公开课。

上午10时 2024/12/01 作者 PaperAgent

Mooncake是Kimi的服务平台，后者是由Moonshot AI提供的大型语言模型服务。基于KVCache的解耦架构和预测性早期拒绝策略，Mooncake在高过载场景下实现了显著的吞吐量增加，并且通过改进的传输引擎支持灵活的数据传输。

下午12时 2024/11/29 作者 PaperAgent

RDAgent是用于自动化工业研发过程的工具，通过提出新想法（Research）和实现这些想法（Development），并在实践中不断学习优化。