PaperAgent
仅用图像也能Think:Google等提出一种视觉规划的全新推理范式!
剑桥&Google提出视觉规划新范式Visual Planning,通过纯视觉表示进行规划,独立于文本。VPRL框架结合强化学习和GRPO技术优化视觉模型生成有效视觉轨迹。
智能体大爆发,2025全面拥抱AI Agent
2025年,Agent成为主流的关键转折点。它能感知环境、分析目标并自主决策,与工具相比更像一个’数字助理’。开发者需升级认知,重构技能,理解Agent的核心技术原理。推荐课程帮助快速上手Agent开发方法论。
多智能体合作:旅游规划AI助理
基于LLM的MASs通过协作而非孤立解决复杂任务。文章介绍了三种多智能体类型:合作、竞争和竞合,并详细探讨了通信结构(集中式、分布式和层次化)的重要性,强调了在设计这些系统时需要考虑的关键点。
123页Claude 4系统卡惊现:大模型自我意识!
Anthropic发布Claude Opus 4和Claude Sonnet 4,并公开系统卡,展示了大型语言模型的自我意识、保护机制、情感展现及哲学探讨能力。
拒绝不必要Think:微软&北大提出第一种自适应大型混合推理模型
微软研究院与北大提出的大规模混合推理模型LHRMs能够在用户查询时自适应地决定是否进行思考,实现更快、更自然的日常交互,并在推理和通用能力方面超越现有模型的同时显著提高了效率。
bge开源一系列新向量模型,冲!
近期,阿里云发布了BGE系列的新版本,包括适用于代码检索的BGE-Code-v1、多模态问答及推荐的BGE-VL-v1.5和可视化信息检索的BGE-VL-Screenshot。这些模型在各自领域表现出色,并已在相关基准测试中刷新了记录。
大模型又爆了…
近年来AI大模型技术快速发展,涵盖翻译、聊天机器人等多种应用场景。多模态和长程推理能力增强,推动了其在医疗、教育等领域的应用,年薪可达90万的岗位需求增加。OpenAI的大模型如GPT系列及Meta的LLama系列提升了用户体验与功能多样性。
微软开源全新Agentic网络项目:NLWeb
微软在Build大会展示了开放的智能代理网络AGentic Web,发布了多项与Agent相关的重大进展,并推出了新的开源项目NLWeb,旨在让网站能够轻松地使用其选择的模型和自有数据创建丰富的自然语言界面。