字节开源视觉-语言多模态大模型,AI理解现实世界的能力越来越强了。

字节开源的Seed1.5-VL是视觉-语言多模态大模型,支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型,已在多个公开基准中表现出色。

智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA

智源研究院发布三款向量模型,包括代码向量模型BGE-Code-v1、多模态向量模型BGE-VL-v1.5和视觉化文档向量模型BGE-VL-Screenshot,它们在代码及多模态检索中取得了最佳效果,并登顶多项测试基准。这些模型目前已向社区开放,支持各类应用场景。

在线教程丨字节开源 InfiniteYou 图像生成框架,实现高保真面部特征迁移

InfiniteYou 是字节跳动团队推出的身份保持图像生成框架,通过扩散变压器技术确保面部特征在不同场景中的保留。其核心创新InfuseNet提升了身份保真度,并解决了图文对齐偏差和生成质量不佳的问题。HyperAI超神经提供教程及Demo演示。

阿里Qwen版高级语音模式和实时视频聊天模式来了:每天10次试用

阿里发布Qwen2.5-Omni-7B模型,支持实时语音和视频聊天,并开源其技术报告。该模型采用’思考者-说话者’架构实现跨模态处理能力,性能达到同类最佳水平,在多个垂直领域表现出色。

另一个来自中国本土”DeepSeek”时刻?全球首个通用人工智能代理发布

通用AI Agent「Manus」发布早期预览版,能自主完成从想法到执行的完整链路任务。它通过演示简历筛选、房产研究及股票分析等实际案例展示了其能力,并且已在多个平台解决真实商业问题。