炸裂!Meta深夜推出Llama 4系列 :单卡H100能跑,千万上下文,还有2万亿“巨兽”
Meta发布了Llama 4系列首批模型,采用混合专家架构并支持多模态训练。推出了性能最强的小尺寸模型Scout、同级别最佳的Maverick以及正在开发中的Behemoth预览版。Llama 4 Scout和Maverick均支持高性能低成本比,实现了业界领先的1000万+ Token 多模态上下文窗口,并提供了智能调参技术和后训练策略优化。
Meta发布了Llama 4系列首批模型,采用混合专家架构并支持多模态训练。推出了性能最强的小尺寸模型Scout、同级别最佳的Maverick以及正在开发中的Behemoth预览版。Llama 4 Scout和Maverick均支持高性能低成本比,实现了业界领先的1000万+ Token 多模态上下文窗口,并提供了智能调参技术和后训练策略优化。
DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT,通过增加推理计算量实现了有效的推理时扩展,并显著提升了LLM的性能。
Midjourney宣布V7 Alpha测试版上线,新增草稿模式成本减半、渲染速度提升10倍等功能。模型理解能力更强,图像质量及细节处理改善显著。
PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示,Claude 3.5 Sonnet表现最好,平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准,有助于加速科学发现并推动开放协作。
UC San Diego团队通过实验验证GPT-4.5不仅通过了图灵测试,其表现甚至超过真人。胜率高达73%,远高于对照组人类对手的50%。研究发现人设提示是关键因素。
Runway公司发布了新一代视频生成模型Gen-4,解决了场景一致性问题并增强了保真度、动态运动捕捉和可控性。Gen-4的核心优势包括高动态与真实感、高度一致性及精准理解与执行能力。
阿里发布Qwen2.5-Omni-7B模型,支持实时语音和视频聊天,并开源其技术报告。该模型采用’思考者-说话者’架构实现跨模态处理能力,性能达到同类最佳水平,在多个垂直领域表现出色。