国产 LLM 扎堆开源的一周~

国产大模型热闹非凡的一周,各种开源,覆盖多个方面,上海AI Lab开源InternLM3(8B)面壁智能开源多模态MiniCPM-o 2.6(8B),Minimax开源MiniMax-Text-01、MiniMax-VL-01(456B),阿里开源千问数学推理奖励模型Qwen2.5-Math-PRM/RM(7B/72B)另外Qwen2.5-VL也发布在即~

书生InternLM3-8B

InternLM3开源了一个拥有8B参数的指令模型InternLM3-8B-Instruct,该模型旨在用于通用场景和高级推理。

https://hf-mirror.com/internlm/internlm3-8b-instruct

多模态小钢炮MiniCPM-o 2.6

面壁智能开源新一代多模态小钢炮MiniCPM-o 2.6,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,进一步优化了 MiniCPM-V 2.6 的众多亮点能力。MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力

模型架构:端到端全模态架构、全模态流式机制、可配置的声音方案

https://github.com/OpenBMB/MiniCPM-o/tree/main

MiniMax-01系列模型

MiniMax-Text-01 是一个强大的语言模型,拥有总计456B参数,其中每个token激活45.9B为了更好地挖掘模型的长文本处理能力,MiniMax-Text-01 采用了混合架构,融合了线性注意力softmax注意力和专家混合(MoE)。MiniMax-Text-01 的训练上下文长度被扩展到100万个token,在推理过程中能够处理高达400万个token的上下文。

MiniMax-VL-01模型。该模型采用了“ViT-MLP-LLM”框架,这是多模态大语言模型领域中常用的一种技术。模型由三个关键部分初始化和训练而成:一个拥有0.3B参数的视觉Transformer(ViT)用于视觉编码,一个随机初始化的两层MLP投影器用于图像适配,以及作为基础LLM的MiniMax-Text-01。

https://hf-mirror.com/MiniMaxAI/MiniMax-Text-01https://hf-mirror.com/MiniMaxAI/MiniMax-VL-01

Qwen2.5-Math-PRM/RM

此次阿里千问开源的有三个模型,除了数学结果奖励模型(ORM)Qwen2.5-Math-RM-72B之外,还发布了过程奖励模型(PRM),即Qwen2.5-Math-PRM-7B和Qwen2.5-Math-PRM-72B。PRM作为一种有前景的方法,用于大型语言模型(LLM)数学推理中的过程监督,旨在识别并减少推理过程中的中间错误。

https://hf-mirror.com/Qwen/Qwen2.5-Math-PRM-72Bhttps://arxiv.org/pdf/2501.07301

Qwen2.5-VL也发布在即

阿里云通义千问团队的多模态模型 Qwen2.5-VL 正在提交合入 Transformers 库的 Pull Request,目前该 PR 正在审核阶段:

(文:PaperAgent)

欢迎分享

发表评论