日期: 2025 年 1 月 15 日
激进架构,400万上下文,彻底开源:MiniMax-01有点“Transformer时刻”的味道了
作者
|
王兆洋
邮箱
|
wangzhaoyang
@pingwest.com
“MoE”加上“前
MiniMax开源旗舰新模型:400万上下文、全新架构,性能比肩DeepSeek-v3、GPT-4o
MiniMax-01系列包含两个模型:基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。首次大规模扩展新型Lightning Attention架构,支持4M token上下文处理,并在基准测试中与顶级闭源模型表现相当。MiniMax-Text-01参数为456B,在Core Academic Benchmark上获得高分,MiniMax-VL-01采用ViT-MLP-LLM框架,覆盖多模态数据训练,性能突出。
MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o
开源模型上下文窗口扩展至400万token。MiniMax-Text-01及MiniMax-VL-01分别展示了强大的长文本处理能力和多模态识别能力,参数量大、上下文支持能力强。
仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破
文章介绍了V2PE(Variable Vision Position Embedding),一种用于增强视觉-语言模型在长上下文场景表现的位置编码方法。通过实验验证了其有效性和优势,为视觉-语言模型的发展带来了新的机遇。
藏不住了!OpenAI的推理模型有时用中文「思考」
OpenAI 的 o1 模型在回答编码题时,开始使用中文思考。专家们提出了多种解释,包括训练数据的影响、语言选择的自然性以及模型自身的智能涌现等观点。