大型语言模型
微软悄悄发布了全新纯视觉AI工具!一张屏幕截图,即可精准操作你的电脑!
微软发布OmniParser V2版本,能将屏幕截图转化为LLM可读懂的结构化元素,提高多模态大模型的视觉识别准确度。适用于自动化测试、操作等场景任务。通过像素级屏幕理解能力,支持多种大型语言模型。
FilmAgent:哈工大深圳×清华,AI多智能体框架引领虚拟3D电影制作新纪元
FilmAgent是由哈尔滨工业大学(深圳)与清华大学联合开发的一款基于大型语言模型的多智能体协作框架,用于实现虚拟3D空间中的端到端电影制作自动化。它通过批评-修正-验证和辩论-评判策略优化剧本内容并确定镜头设置。
Agent圈的DeepSeek,牛津大学Agentic Reasoning框架显著提升深度研究能力
牛津大学提出Agentic Reasoning框架通过整合外部代理增强LLM推理能力,在复杂研究任务中超越现有模型,显著提高准确性和生产力。
Meta首席科学家LeCun:新一代AI架构3到5年内问世 机器人技术是核心
Meta首席AI科学家Yann LeCun预测未来几年内将出现新的AI架构范式,并认为机器人技术可能成为下一波AI应用的核心。他指出当前的生成式AI和大型语言模型(LLMs)寿命较短且存在不足,如缺乏对物理世界的理解、持久记忆、推理能力和复杂规划能力。