LLaMA-Factory Day0 支持了 GLM-4.1V-Thinking 模型的微调和推理
LLaMA-Factory Day0发布支持GLM-4.1V-Thinking模型微调和推理的代码更新及视频教程
LLaMA-Factory Day0发布支持GLM-4.1V-Thinking模型微调和推理的代码更新及视频教程
OpenAI前研究主管Bob McGrew指出,预训练、推理和多模态能力是实现AGI的关键,而2025年将是推理之年。他强调预训练仍然重要但收益递减,而推理则面临技术潜力逐渐被「消耗殆尽」的挑战。
小米发布首个为推理而生的大模型MiMo,仅7B参数规模超越OpenAI和阿里Qwen。技术团队强调预训练与后训练协同优化的重要性,通过特定数据合成及创新算法提升推理能力。
随着大语言模型(LLM)应用增加,企业级部署和推理模型成为焦点。多种前端框架如Transformers、ModelScope等被对比分析,帮助选择最适合的解决方案。
谷歌 Gemini AI 最近动作频频。发布了参数量仅为 DeepSeek-V3 1/25 的 Gemma 3,以及支持生图功能的 Gemini 2.0 Flash-Exp 模型,并开放了 Gemini 的 Deep Research 使用权限,升级为自家推理模型 Gemini 2.0 Flash Thinking。新增个性化模式和 Gems 智能体平台等功能。
Nvidia掌门人黄仁勋表示,市场对AI的理解存在误区。他认为预训练、推理只是AI发展的开始,并强调后训练才是智慧的关键阶段。他还指出企业需构建数据智慧层,利用元数据和压缩比高的语义层来管理海量原始数据。