大模型进入 RL 下半场,模型评估为什么重要?
大模型评估重要性讨论,SuperCLUE发布中文通用AI智能体测评基准AgentCLUE-General。超级 CLUE 联合创始人朱雷分享大模型及 Agent 评估难题与企业落地建议。
大模型评估重要性讨论,SuperCLUE发布中文通用AI智能体测评基准AgentCLUE-General。超级 CLUE 联合创始人朱雷分享大模型及 Agent 评估难题与企业落地建议。
Epoch AI指出,若推理模型保持每3-5个月以10倍速度增长,则训练所需的算力可能大幅收敛。当前最前沿的推理模型如o1和o3的推理训练规模还未见顶,但有可能在一到两年内达到上限。
文章介绍了InfiGUI-R1,一个基于Actor2Reasoner框架训练的GUI智能体。该模型旨在提升AI在多步骤操作任务中的能力和可靠性,并能像人类一样先思考后行动。通过推理注入和深思熟虑增强两阶段训练方法,30亿参数的InfiGUI-R1-3B模型在多个基准测试中表现出色。
OmniKV 提出了一种创新性的动态上下文选择方法,用于高效处理长上下文 LLM 推理。它无需丢弃任何 Token,通过动态选择实现计算稀疏,显著提升推理速度和吞吐量,且在各种预算下均优于丢弃 Token 的方法。
Void 是一个开源的 AI 代码编辑器,支持多种 AI 模型,并且完全免费和开源。它与 Cursor 类似,但界面更简洁。用户可以使用 Agent 和 Gather 模式来提高工作效率。
2025年是Agent从概念走向商业主流的关键时期。本文介绍了Agent的本质及其能力,并提供了程序员如何拥抱Agent以获取竞争优势的方法和资源。
编码智能体Craft通过「需求-拆解-执行-验证」流程实现复杂工程任务,支持从需求到多文件代码生成、重构的全流程自主化开发,并提供MCP生态整合能力及Plan模式辅助用户完成任务。对比Cursor Agent,Craft在多个方面表现出色,支持多文件系统级改造,具备更好的用户体验和计划功能,是开发者值得考虑的选择。
研究生李在计算机视觉算法岗遇到困难后转向模型压缩与推理加速方向,并参加了杨伟光老师的深度学习模型推理加速项目实践课程,最终顺利拿到企业offer。