Llama 4 开源了！千万上下文 + 单卡H100跑 400B + 反超DeepSeek，网友：RAG还好吗？

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

AI 圈周末炸锅，Meta 毫无预兆地扔出了 Llama 4 系列，直接抢回开源第一宝座。

这次 Llama 家族一口气来了三款 (最后一款超大杯还在路上)，全是基于 MoE 架构，还首次原生支持多模态——Llama 终于“长眼睛”了。

支持 12 种语言, Apache 2.0 开源。

首批两员猛将登场：

中杯Llama 4 Scout (侦察兵): 109B 参数 (17B 活跃)，16 专家。长文逆天，主打 1000 万超长上下文窗口！相当于可以处理20+小时的视频。

性能 PK 掉 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。小模型卷王。一张 H100 （Int4 量化）就能跑。

大杯Llama 4 Maverick (独行侠): 400B 参数 (17B 活跃)，128 专家，100 万上下文。直接在 LMSYS 榜单冲到第二，仅次于闭源 Gemini 2.5 Pro。

这是第四个突破 1400 分的模型，开源模型里更是直接登顶，超过了 DeepSeek。而且在各种硬核任务像困难提示词、编程、数学、创意写作上，Llama 4 Maverick 都是第一，比自家的 Llama 3 提升巨大。

拳打 GPT-4o/Gemini 2.0 Flash，代码能力对标 DeepSeek-V3 但参数减半！还是一张 H100 就能跑。

另外两个模型即将推出。- Llama-4 推理模型将于下个月推出。- Llama 4 Behemoth 正在训练中。

▼ LLAMA-4细节一图搞定

超大杯Llama 4 Behemoth (巨兽): 2 万亿参数 (288B 活跃)，16 专家。还在训练，已经在STEM 基准上干掉了 GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。

这是 Maverick 的“教师模型”。上面两个都是从它这“蒸馏”出来的，目标是干翻 GPT-4.5 这些顶级闭源模型。

Meta 的 GenAI 负责人 Ahmad Al-Dahle 直接表示，Llama 4 代表了 Meta 对开源 AI 的长期承诺，他们坚信开放系统才能搞出最好的模型。

连谷歌 CEO 劈柴都忍不住点赞，说 AI 世界真是永不无聊。

Llama 4 技术拆解 & 亮点速览：

原生多模态设计，文本和视觉 token 早期融合，用大量无标注数据联合预训练。

上传一张图像，你可以问关于这张图像的任何问题

架构革新: 首次上 MoE (提效降本)， Maverick 模型用 MoE 后，虽然总参数 4000 亿，但激活参数只有 170 亿，推理成本和延迟都大大降低。

升级了视觉编码器；搞了个 MetaP 训练方法优化超参数；支持 100 多种语言；

预训练 Llama 4 Behemoth 模型时下血本: 30 万亿+ Token 数据集 (Llama 3 两倍)，FP8 精度训练，32K 个 GPU 硬怼。

为了提升长上下文能力，Llama 4 还搞了中期训练，Scout 的超长上下

文得益于新 iRoPE 架构 (无位置嵌入，利于长文)。

直接解锁了 1000 万 token 上下文，文档代码随便塞，记忆、个性化和多模态应用。

不过，虽然 10M 上下文听起来很疯狂，但这只是 Magic AI 计划在某个时候实现真正LLM上下文长度的十分之一（100M）：

Llama 4 这 1000 万上下文一出，直接有人喊出 “RAG 已死”。

核心意思是，有了这么长的上下文，再加上各种工具 (比如搜索)，还要 RAG 干啥？成本似乎也不是大问题了。

但反对的声音也不少。

一个论点是“Garbage in garbage out”——上下文太长，塞一堆不相关的垃圾信息进去，LLM 反而会懵逼，输出质量更差。

RAG 能精准筛选最相关的信息喂给模型，还能有效减少长上下文可能带来的幻觉问题。更别提实时数据、私有数据这些场景，RAG 还是刚需。

也有人觉得，就算上下文再长，精准理解用户偏好、快速捞出个性化数据这块，还得靠 RAG 和向量数据库。

还有人更实际，说除非 token 价格打骨折，否则 RAG 就死不了。

更有人认为，就算 RAG 整体过时，但 “检索” 这个动作本身还是有价值的，尤其是在你想看原始资料的时候。

还有人看得更远，觉得在这种“too fast”的迭代速度下，除了有基建护城河的巨头（megacaps），很多工具（比如被点名的 Cursor）可能很快就会“become worthless”，最终一切都会被大厂掌控。

还有新的后训练流程 (轻量 SFT > 在线 RL > 轻量 DPO)，以及从 Behemoth 蒸馏到 Maverick 的技术。

总的来说，Llama 4 Maverick 性能很强，同等规模模型里几乎无敌，编码、推理、多语言、长上下文、图像理解都非常出色。

Llama 4 Scout 也很能打，1000 万 token 上下文更是亮点。

Llama 4 Behemoth 作为教师模型，性能天花板更高。 Llama 4 全系列都支持原生多模态和 12 种语言，应用前景广阔。

不过也有网友表示，Llama系列在中文支持上一直不是很好。

Llama 4 Scout 和 Llama 4 Maverick 现已开放下载，地址：

llama.com：https://www.llama.com/llama-downloads/

Hugging Face 地址：https://huggingface.co/meta-llama

可以尝试vllm部署：

模型刚放出来，Mac 用户这边立马就有人秀肌肉了。

有网友直接在 M3 Ultra (512GB 内存) 上用苹果自家的 MLX 框架，把 Llama 4 Maverick 的 Q4 量化版 (大概 225GB) 跑出了 50 token/s 的惊人速度，功耗才 50 瓦，又快又省电。

而另外一位网友马上又给出了更详细的测试：

4月，Llama 4已亮相，这下看R2了。

以上。

One More Thing

以下，本号知识星球（汇集ALL订阅频道合集和其他）：

星球里可获取更多AI绘画实践以及其他AI实践：

本号连载过许多MCP的文章，从概念到实践再到自己构建：

MCP是什么：Windsurf Wave3：MCP协议让AI直接读取控制台错误，自动化网页调试不用复制粘贴了！Tab智能跳转、Turbo模式。

Cline的MCP商店来了。

MCP怎么配置、报错解决：Windows下MCP报错的救星来了，1分钟教你完美解决Cursor配置问题。

MCP实践：Cursor + MCP：效率狂飙！一键克隆网站、自动调试错误，社区：每个人都在谈论MCP！

最新MCP托管平台：让Cursor秒变数据库专家，一键对接Github，开发效率暴增！

Blender + MCP 从入门到实践：安装、配置、插件、渲染与快捷键一文搞定！

比Playwright更高效！BrowserTools MCP 让Cursor直接控制当前浏览器，AI调试+SEO审计效率狂飙！

手把手教你配置BrowserTools MCP，Windows 和 Mac全流程，关键命令别忽略。

2分钟构建自己的MCP服务器，从算数到 Firecrawl MCP（手动挡 + AI档）

太简单了！Cline官方定义MCP开发流程，聊天式开发，让MCP搭建不再复杂。

微软发布 Playwright MCP 正式版。

OpenAI 官宣拥抱 MCP，Agents SDK已支持，桌面版即将跟进！

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

点这里👇关注我，记得标星哦～

（文：AI进修生）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Aitrainee | 公众号：AI进修生

发表评论 取消回复

发表评论取消回复