字节开源了一款多模态神器!BAGEL上线,超越Qwen2.5-VL,媲美SD3!

字节跳动发布的BAGEL是首个支持多模态输入输出、思维链推理和MOT架构优化的跨模态超级AI模型,性能超越Qwen2.5-VL、InternVL-2.5。它能理解图像更准确,生成图像媲美Stable Diffusion 3,并在10+基准测试中表现优异。

看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一

字节发布轻量级多模态推理模型Seed1.5-VL,在60个主流基准测试中拿下38项第一,仅用532M视觉编码器+200亿活跃参数即能与大型顶尖模型抗衡。该模型通过多层次架构和训练细节实现了高效处理多种多模态数据的能力。

阿里巴巴开源大模型搜索引擎ZeroSearch,开源社区的深度研究框架DeerFlow

文章介绍了五种创新技术与工具,包括ZeroSearch、DeerFlow、News Agents、n8n Autoscaling System和SmartPDF。它们专注于提升LLM的搜索能力、自动化研究流程、智能新闻聚合与摘要、工作流自动扩容以及利用AI快速总结PDF内容等方向。

通用 Agent 向左,Agentic Browser 向右

Fellou 是全球首个 Agentic Browser,专注于浏览器内的人机协同环境。它支持跨平台搜索、跨网页任务执行和智能感知浏览器环境等功能。尽管存在上手门槛高和执行速度慢等问题,但其GUI Agent技术已达到行业领先水平。