编者按:
本文转载自网易有道CEO周枫公众号,周枫谈到,2024年大模型行业飞速发展,到2025年初,国内大模型也已经达到GPT-4的水平,各领域取得显著进展,尚待突破的领域则给国内众多团队提供了未来发展的机会。同时,周枫预测,2025年既是大模型的应用元年,也是中小模型快速发展的元年。
作者|周枫
2025新年伊始,AI领域新闻就不少,在CES 2025上,黄仁勋发布了良心价的50系列显卡,开复老师宣布零一智能将退出超大模型的研发,MiniMax继DeepSeek之后发布了GPT-4o同等能力模型……
新年总是让人回顾过去,展望未来,因此这篇文章分享一些我对2024的行业感悟,并提出一些对2025年的展望,同时也会提及有道公司的一些工作。
2024年的大模型行业
一件了不起的事情是,到2025年初,国内大模型确实已经达到GPT-4的水平,无论是商业模型还是开源模型都实现了这一突破。回顾一年前,当时GPT-3.5尚未完全追上。如果那时预估一年后能追上GPT-4,这无疑是非常乐观的估计。从这个角度来看,2024年无疑是行业快速发展的一年,不仅超过了GPT-3.5,追平了GPT-4,甚至开源模型也达到了同等水平。此外,诸如多模态能力、视频生成模型、小模型等领域也都取得了显著进展。
然而,除了进展,识别尚待突破的领域并分析背后原因或许更为重要,这些问题可能为领域内的团队提供未来发展的机会:
一个尚未普遍具备的重要能力是实时多模态模型(Omni Multi-modal Models)。例如,ChatGPT的高级语音模式(Advanced Voice Mode),相信许多读者已经体验过:极低的对话延迟,语气理解能力,以及随时打断、调整语速等功能,使交互自然度大幅提升。同时,其视觉理解功能还支持基于实时视觉内容的互动。这些能力构成了实时多模态模型的核心。然而,在国内市场,尽管一些头部Chat应用已具有类似能力,但仍不完整,而开源模型的差距更大。不过,像MiniCPM-o-2.6,MinMo, VITA 1.5这样近期发布的开源项目正逐步引入初步的实时多模态能力,值得关注。
另一个热点是推理模型。通过延长模型思考时间来进行“深度思考”,提升对复杂问题的回答质量,这类技术被称为“测试时计算(Test-Time Compute)”。OpenAI在这一领域投入巨大,并推广其o1/o3产品,认为这是扩展定律(Scaling Law)的“第二春”。从训练阶段扩展转向测试阶段扩展,OpenAI还推出了每月200美元的高价订阅服务。
教育推理模型是有道的一个工作重点。在教育场景中,无论是学习、做题还是讲题过程,都需要深入且长时间的思考。因此,推理模型在教育领域的应用价值非常高。
尽管OpenAI对o1进行了高调宣传,但当前推理模型仍只能算是通用人工智能(AGI)的雏形。在处理复杂问题,尤其是理科问题,o1已显著进步,评测指标翻倍增长,实际体验也令人印象深刻。我评价其解题和讲解能力大致达到“985高校高年级中等本科生水平”。模型的知识非常全面,分析题目能力强,表达也很清楚。输出的文档重点突出且行文非常流畅。
然而,在存在问题方面,会犯小错可能是目前这一代推理模型最大的软肋之一。尽管整体的知识框架非常强大,但在题意文字的细节理解、数学计算的过程等人类不容易出错的地方,这些模型反而频繁犯错误。实际上,o1正式版发布当天就有网友找到了视频中模型犯的小错误。
总的来说,当前推理模型的能力已经相当惊艳,但因为还有一些缺陷,暂时还未达到AlphaGo这样碾压人类的水平。
国内推理模型的发展同样快速,从2024年暑期摸索o1-preview的技术方向,到Q4成功跟进了一批新的推理模型,包括QwQ、QVQ、DeepSeek R1、Kimi K1和InternThinker等。这些模型在长思维链的生成上已经基本成型,但与o1相比仍有明显差距,例如过度思考简单问题,以及缺乏高质量最终输出。
2025是“应用元年”吗?
展望2025年,超大模型似乎成为了少数公司的游戏,更多企业应该聚集应用开发,MiniMax闫俊杰曾预测“未来全球只会剩下5家大模型企业”,我对此表示认同,对非超大模型团队而言,2025年的应用路径更值得探讨。
目前看起来,2B、2G会是2025年最拥挤的大模型赛道,困难在于2024年2B市场已显疲态,客户对模型的新鲜感减弱,导致项目竞争加剧。这是我们对2B市场的一个基本判断,暂时没有看到变化的动向。
我们认为今年值得关注的一个路径,是中小和行业模型——这个我们一直看好的赛道的吸引力在进一步提升。当前定义就是50B以下的模型,也包括5B以下的端侧模型,因为以下原因值得关注:
1.产模一体的方法论。2024年产模一体的方法论逐渐成熟。对于零散需求和场景验证,prompt engineering已经足够。针对有规模场景,通过微调等方法可取得更强竞争力。若已有多个AI关键场景和大量用户,则需要走“模型即产品”的道路,训练专有中小模型,并完善数据与训练流水线。
2.开源模型、代码与数据。Transformer技术的成熟统一了AI技术。视觉领域统一到SLiP/ViT,图像和声音生成统一到Flow Matching等技术,使AI领域大大“变平”。团队无需大量人力便可找到高效的业务场景解决方案。或者倒过来说,2020年前的工作、经验、代码,都可以完全丢掉了。
3.DPO高效训练方法。以往的中小模型,主要基于预训练和监督微调(SFT)方法取得,而超大模型使用的PPO RLHF对齐训练,往往因为太过复杂而无法进行,但去年开始更简单有效的DPO对齐训练方法成熟,使得中小模型大幅提升用户理解能力(即与人类对齐),为中小模型的应用铺平了道路。
这些趋势使专注于特定场景的中小模型在目标领域表现优于超大模型。
例如,有道翻译LLM第三版近期上线,在语言工具层面,针对重度学习和专业用户的优化,使其翻译能力超越了超大模型,而推理成本又有很大优势。更重要的,形成清晰的长期产品路线图后,进一步提升了研发效率。
所以我预测2025既是大模型的应用元年,也是中小模型快速发展的元年。希望今年能够有一批公司在教育、医疗、手机端侧、AI PC等行业和场景做出优秀的模型,并跑出DAU、收获会员、卖出硬件、做出业务的高速增长。
我们一直认为大模型就是一项持续推动行业的技术,不是一夜之间替代原有技术和产品的神奇能力,和移动互联网技术一样,在十年跨度内推动科技产业发展。所以针对每个场景、每个行业,每个业务分析清楚才能取胜。
近期智能体Agent也比较热,2B的公司几乎都在做智能体。我倒是觉得,智能体技术当前最现实的应用还是娱乐,AI队友的确是非常自然的应用场景,从用户体验和商业逻辑都是很通的。2B场景下的智能体,总体上应该是前几年的RPA的一个大升级,但SaaS生意到目前在国内还未有大的成功,这个如何破解依然是难题。
另外,聊下算力问题。24年国内新增了很多的卡,缓解了燃眉之急,同时DeepSeek V3的走红可能让大家觉得1/10的算力也可以达到同样的效果,是否算力问题已经解决了?这个肯定是过于乐观了,过去30年行业唯一不变的,就是多大的技术能力都会很快被消耗掉。通用的大推理模型,视频生成模型,目前看起来都需要大得多的算力,所以算力问题,最多算短时间缓解吧,后面还需要不断想办法。
最后,祝大家新年快乐,2025收获满满!
(文:多知)