Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?

Meta发布Llama 4系列模型,参数规模达到109B至288B不等,支持原生多模态和12种语言,性能强大且应用前景广阔。不过中文支持仍需改进,但其在编码、推理、多语言处理等方面表现出色。

小模型路线图来了!苹果弄清楚了“蒸馏Scaling Law”

苹果研究人员发现,多次‘蒸馏’更具优势。当教师模型性能比大小更重要时,选择与学生模型相近大小的教师模型可优化学习效果。这一研究成果有望为业界提供更高效、低成本的小模型训练方案。