智源研究院归档

国产一句话P图工具，免费开源OmniGen2支持中文

2025年7月4日11时作者路过银河AI

近日介绍了OmniGen2这一由中国智源研究院研发并开源的工具。它支持中文且性能强大，能够通过ComfyUI进行简单操作实现图片风格转换、贴纸添加等功能，并能根据需求调整背景等细节。

GitHub一周2000星！国产统一图像生成模型神器升级，理解质量双up，还学会了“反思”

2025年7月3日16时作者量子位

国产开源统一图像生成模型OmniGen2发布，显著增强了上下文理解能力、指令遵循能力和图像生成质量。它支持文生图、图像编辑和主题驱动图像生成，并通过全面开源训练数据和权重等资源促进开发者参与。

智源全新悟界系列大模型亮相！剑指AI加速数字世界、物理世界融合

2025年6月6日23时作者智东西

悟界系列4款大模型发布，涵盖多模态世界模型、脑科学基础模型、跨本体具身智能框架及全原子微观生命模型，推动AI从数字世界迈向物理世界。

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

2025年6月5日8时作者量子位

智源研究院联合上海交通大学发布新一代超长视频理解模型Video-XL-2，单张显卡即可高效处理万帧视频，编码2048帧仅需12秒。该模型在多个维度表现优异，并向社区开放权重，有望在影视分析、异常检测等场景中广泛应用。

智源3款向量模型发布！代码检索及多模态维度刷新多项SOTA

2025年5月20日16时作者量子位

智源研究院发布三款向量模型，包括代码向量模型BGE-Code-v1、多模态向量模型BGE-VL-v1.5和视觉化文档向量模型BGE-VL-Screenshot，它们在代码及多模态检索中取得了最佳效果，并登顶多项测试基准。这些模型目前已向社区开放，支持各类应用场景。

多模态检索大升级！智源三大SOTA模型，代码、图文理解能力拉满

2025年5月20日16时作者新智元

智源研究院联合多所高校发布三款向量模型，包括BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot。这些模型在代码及多模态检索中表现出色，并登顶多项测试基准。BGE-Code-v1针对代码检索优化，提升跨语言信息获取能力；BGE-VL-v1.5则增强通用多模态理解与检索性能；BGE-VL-Screenshot专为视觉化文档任务设计。智源研究院将持续深耕向量模型和检索技术，推动相关领域发展。