Qwen 3 发布,开源正成为中国大模型公司破局的「最优解」

阿里新一代的大模型 Qwen 3 今早发布,新旗舰 Qwen3-235B-A22B 的评测成绩,和 DeepSeek R1、Grok-3、Gemini-2.5-Pro 不相上下。这一代全系列模型都支持混合推理,对 Agent 的支持也上了新台阶。

随着 Qwen 2.5 和 3 的发布,全球的开源模型生态也呈现了一种新形态:以 DeepSeek+Qwen 的中国开源组合,取代了过去 Llama 为主,Mistral 为辅的开源生态。Qwen 系列的衍生模型目前已经是 HuggingFace 上最受欢迎的开源模型,衍生模型的数量也超过了 Llama 系列。而 DeepSeek 对于开源模型生态的冲击和贡献,也有目共睹。

与大模型六小龙相比,主打开源的 Qwen 和 DeepSeek 无疑在国际市场赢得了更多开发者和创业者的关注,来自开源社区的代码贡献、更多优秀微调版本的出现,也在以另外一种方式推动模型能力的进步。

可以说,开源,正在成为中国大模型公司进入全球市场的最佳路径。

而对阿里云来说,Qwen+阿里云的配合,「模型-云-行业应用」的打法,走出了国内 MaaS 模式的新方向,也在很大程度上降低了国内 AI 创业者的起步难度。让 AI 创业本身,不再受困于成本、生态链的整合等。

Qwen 3 发布后,几乎全参数、全模态的开源布局,会给 AI 创业带来哪些新机会?我们采访了四位来自不同行业的 AI 创业者,从文本到图像、从 ToC 到 ToB,试图还原 2025 年 AI 创业者对大模型落地的真实思考和实践。


Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~
进群之后,你有机会得到:
  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。



01 

混合推理、Agent 友好,

大模型的新方向

Qwen 3 这次的发布,简单来说,两个方面的更新值得关注。

  • 混合推理:Qwen3 是国内首个混合推理模型,本次引入了「思考模式/非思考模式」的无缝切换,用户可以手动控制思考环节的 token 消费,类似 Gemini-2.5-Flash 和 Claude-Sonnet-3.7 的模式,这应该也是今后大模型的标配能力了。

  • 更强的 Agent 能力:优化模型的 Agent 和 代码能力,同时也加强了对 MCP 的支持。过往很多调用 MCP 工具失败的场景,换成 Qwen3 之后成功率就提高了很多。

官方的博客介绍中明确表示「我们正从专注于训练模型的时代过渡到以训练 Agent 为中心的时代」。

这可能也代表着今天的大模型的一个新方向——从单纯的模型强化学习,到让大模型更擅长使用工具。

而对于 AI 创业者来说,似乎也更坚定了 Agent 这个方向,可以先做,等模型的能力上来。



02 

中国模型公司入场全球竞争,

开源正成为「最优解」

DeepSeek R1 之后,全球大模型的竞争进入了一个新的局面。

一方面是硅谷,OpenAI、Anthropic 和 Google 继续在提高闭源模型的上限能力,Deep Research、混合推理模型、Agent 等接连推出,xAI 的 Grok 3 凭借超大参数和不俗的能力,以及免费的策略,也分到了一些市场。而在 DeepSeek R1 发布后进入备战状态的 Meta,紧急上线的 Llama 4 却不尽如人意,隐约有被 DeepSeek 和 Qwen 取代的趋势。欧洲的大模型代表 Mistral,最近的动作也少了很多。

而国内,曾经的大模型六小虎,各自的发展也有所不同。零一万物拥抱 DeepSeek,百川开始在医院试点医疗大模型,智谱在准备上市,MiniMax、Kimi 和阶跃都还在陆续发布新模型,持续跟进 DeepSeek 和 OpenAI 的产品节奏。

能在国际上引发热议的中国大模型,就只有两个开源模型系列——DeepSeek 和 Qwen。

或许我们应该正视现实:在地缘政治、技术封锁、芯片禁令等多重压力下,国内大模型创业公司如果想要在全球范围内获得开发者、企业和资本市场的认可,开源几乎是唯一能快速建立信任和影响力的路径。

闭源 API 或纯国内市场打法,天然受限于「国别信任壁垒」和算力资源瓶颈,难以形成全球生态和技术共识,尤其是当下国内不少模型还在追赶顶尖模型,想引起开发者的关注和讨论,想建立自己的开发者生态,对于闭源模型来说,实在太难了。

开源,已经是当下中国大模型公司在全球市场「破局」的最优解了。

为什么是开源,除了免费可用之外,开源在生态、技术和商业层面都有深远的杠杆效应,这在大模型行业尤为明显。

  • 绕开信任壁垒:开源让模型的权重、代码和训练细节全部公开透明。开发者和企业可以选择自托管,自己掌控数据和模型,也可以自由审查模型的每一个环节,甚至根据自身需求灵活定制。这种开放极大降低了「你是谁」的敏感度,大家不再纠结于开发者的身份,而是把注意力放在「你能做什么」上。信任从身份转向能力,合作的门槛被大幅拉低。企业可在私有环境里运行模型,数据安全可控,不仅是政府与金融场景,很多垂直领域的场景也有很强的需求。

  • 吸引全球开发者:开源这种带有理想主义的叙事,天然具备社区属性。全球的开发者可以无门槛参与,贡献代码、优化算法、分享应用案例。这样的社区驱动力能迅速积累生态势能,推动创新的扩散,带来持续的技术突破。

  • 对抗算力和数据壁垒:虽然算力和数据资源分布不均,但开源社区通过共建、协作,部分弥补了这些劣势。全球开发者共享算力、数据和经验,降低了单点资源不足带来的瓶颈。模型在社区的推动下不断进化,生命力更强,适应性更好,成长速度也更快。

  • 商业模式灵活:开源不仅仅是免费,更多的是灵活。企业可以围绕服务支持、定制开发、云托管、行业解决方案等多元路径探索商业化。这样一来,对单一市场或特定政策环境的依赖被削弱,企业能在不同市场、不同场景下找到自己的生存和增长空间。

如果没有开源,几乎没有任何国内大模型创业公司能在国际市场赢得开发者、企业和生态的信任。地缘政治、技术封锁、API 访问限制、数据合规等多重障碍面前,闭源模式天然被排除在全球主流创新网络之外。只有开源,把模型权重、代码、训练细节全部开放,才能真正绕开「国别信任壁垒」。

没有开源,连「入场券」都拿不到,更别谈参与全球竞争。

虽然 DeepSeek 和 Qwen 两者的开源策略完全不同,但在 Llama 掉队、Mistral 无力的当下,可以说,Qwen 和 DeepSeek 共同奠定了开源生态的「双子星」格局。只是前者更偏重产业落地与社区生态,后者侧重技术的突破与研究。

但开源,并不是大模型创业的「唯一解」,只是「最优解」。

国内大模型创业公司如果手握丰富的垂直场景资源、独特的数据闭环,或者在某些行业拥有不可替代的落地能力,完全可以选择「行业专用模型+闭环应用」这条路。比如,聚焦医疗、金融、政务等高壁垒领域,通过深度定制和本地化服务打造专属护城河。这种模式虽然难以像开源那样形成全球扩散效应,但在国内市场依然有很强的竞争力和生存空间。


03 

Qwen+阿里云:

真正的模型即服务(MaaS)

就在前不久,Qwen 衍生模型包揽了 HuggingFace 开源大模型榜单前十,衍生模型总数量突破 10 万,已经超越了 Llama 家族的生态规模。

Qwen 3 这次发布的版本,Dense 模型从 0.6B 到 32B,端侧到云端场景都覆盖。可以很明显看到,Qwen 系列的开源模型已经全参数、全模态覆盖了当下大模型的各种场景,应该是目前模态覆盖最广的开源模型。

全参数覆盖:

  • Qwen 3:稠密模型的 0.6B、1.7B、4B、8B、14B、32B,MoE 版本的 30B 和 235B 版本。

  • Qwen 2.5:Qwen2.5-Coder、Qwen2.5-Math、支持 1M 上下文的 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。

全模态覆盖:

  • 文本模型 Qwen 2.5、Qwen 3

  • 视觉理解模型 Qwen2.5-VL

  • 视觉推理模型 QVQ

  • 推理模型 QwQ

  • 端到端全模态模型 Qwen2.5-Omini

为什么会选择这样的开源策略?DeepSeek 靠 V3 和 R1 就可以打天下,而 Qwen 却要发这么多的模型?

除了双方的技术聚焦点不同之外,更多可能是商业模式的不同。

以技术破局占据开发者心智的 DeepSeek,商业模式更偏「技术平台+服务」,用极致性价比和开放性,获得全球开发者的关注,围绕模型提供 API 服务、定制化服务等,并且是以远低于行业平均水平的价格来开放 API 服务。

要知道,国内大模型 API 的价格战,就是 DeepSeek 发起的。

但因为 DeepSeek 自研的高效训练方法和算力资源优化,大幅降低了模型训练和推理的硬件成本,即使是以这样的价格提供服务,DeepSeek 的 token 生意,仍然是盈利的。这也可以从他们最近上线的「错峰优惠活动」也可见一斑。

但 Qwen,以及阿里巴巴的战略完全不同。

Qwen 的开源,是生态驱动为主,首先是让自己的模型成为行业标准,吸引开发者和企业在阿里云上部署、微调和集成。Qwen 的开源带动了阿里云的算力、存储、数据服务等一整套商业闭环。对阿里来说,模型开源是「引流」,云服务和行业解决方案才是「变现」。这和微软开源 。NET、推动 Azure 的逻辑非常类似。

「开源+社区」的模式极大降低了 AI 创新的门槛,让企业和开发者可以灵活定制和二次开发,形成了强大的生态网络。

更重要的是,阿里云有庞大的产业客户和应用场景,Qwen 的开源让这些客户可以低门槛地用上最先进的大模型,然后在阿里云上做定制和集成,形成「模型-云-行业应用」的飞轮效应。Qwen 的开源是「以开放换生态,以生态促商业」,最终反哺到阿里云平台的各类商业落地场景中。

最近,阿里云百炼平台又上线了 MCP 服务,从预置的 MCP 服务到用户自定义的 MCP 服务,用户可以很方便将 MCP 接入 Agent 应用和 Workflow 应用中。本次发布的 Qwen 3,也强化了对 Agent 和 MCP 的支持能力。

这,才是真正的 MaaS。(Model as a Service,模型即服务)



04 

Qwen 3 之后,

AI 创业的变与不变

DeepSeek R1 及 Qwen 2.5 全系列模型发布之后,可以明显感知到的一个变化是,虽然开源模型和闭源模型的差距仍然存在,甚至在 2025 年,这个差距并没有很快缩小,但对很多 AI 创业者来说,开源模型的能力已经足够用来进行创业的 PMF 尝试了。

爆火的 Manus,团队在采访中表示目前的模型搭配是 Claude+Qwen 2.5 的搭配,旗舰闭源模型+低成本的开源模型,也正成为很多创业者在今年的大模型落地方案,成本、能力、需求实现更可控。

在 Qwen 3 发布后,我们找了四位不同行业的 AI 创业者,就开源闭源如何选择、模型的微调、模型能力瓶颈,以及大模型创业的坑进行了简单的采访,希望能为今天的 AI 创业者提供一些有价值的参考。

四位创业者是:

  • 一啸:Podwise.ai 联合创始人

  • 左右:心言集团 开源布道师

  • 孙子钧:芋泥约稿 创始人

  • 叶坚白:Memobase 联合创始人

开源、闭源模型如何选择?

一啸:我们主要有两部分模型,核心选择策略是在成本和效果之间寻求平衡。我们不会选用最顶级、效果最好但价格昂贵的旗舰模型,因为对于 C 端用户服务来说,成本太高。

其次,上下文窗口大小对我们至关重要。Podwise 处理的内容(播客)通常非常长,几个小时甚至十几个小时的音频都有。因此,我们需要模型能处理非常大的输入。这也是我们偏爱 Gemini 系列的一个重要原因,它提供百万甚至两百万 token 的上下文窗口。

音频处理模型(语音转文字):我们使用的是 OpenAI 开源的 Whisper 模型。对它的源代码进行了定制化修改和优化,以更好地适应我们的业务场景。部署方面,选择将修改后的模型部署在提供 GPU 算力的云服务上(海外这类服务很多)。这种云服务通常按秒计费,弹性调度方便,成本效益高,我们用多少就付多少钱。

文本处理模型(大语言模型 LLM):这部分我们完全采用调用 API 的方式,不做额外的部署或微调工作。

    • Google Gemini: 使用较多,尤其是处理主要分析任务。

    • OpenAI : 也有混合使用,处理部分任务。

    • DeepSeek: 用于一个特定、对实时性要求不高的后台离线任务。

我们混合使用多家服务商的 API,主要包括:

没有考虑过自己部署文本开源模型。主要是精力原因。对于我们这样的小团队(两三个人)来说,再去折腾部署、优化开源文本模型,投入太大。

另外,虽然没有详细评测,但我们也不确定自己部署开源模型(加上租用 GPU 云的成本)是否真的比现在使用 Gemini Flash 这类已经把价格打得很低的 API 更便宜。音频模型我们自己搞,是因为 API 成本太高(自己做能降到 1/10),但文本模型 API 的成本目前感觉还可以接受,没有到「痛」的程度。

左右:从我们目前的业务角度看,绝大部分(可能 90% 以上)需要使用我们自己微调(fine-tuned)的模型,因此主要是本地化部署后供线上使用。同时,对于某些特定任务,比如数据构造、数据蒸馏,或者需要利用特定大模型(如 GPT、豆包、Qwen)的能力时,我们会直接调用它们的 API。

本地部署的主要是基于 Qwen 的微调模型,根据不同的业务入口,我们会使用不同量级的模型。常用的是 7B、32B 和 72B 这几个版本。此外,我们还有一些具身智能的业务,考虑到用户隐私和多模态处理需求,会采用更小量级的多模态模型,比如 0.5B、1.5B 等。7B 模型主要用在对并发要求非常高,但对模型本身能力要求没那么极致的业务场景。选用 7B 的原因有三:一是推理速度快;二是部署成本相对较低;三是在兼顾性能和速度方面,它比较适合我们的某些特定任务。

至于为什么选 Qwen 模型,主要有以下几点考虑:

生态系统成熟度与稳定性: Qwen 的生态相对完善和稳定,包括推理框架(如 vLLM, SGLang 等很早就适配)、微调工具链以及其他配套设施。相比之下,有些模型(比如 DeepSeek 的早期大参数版本)生态成熟和稳定使用可能需要更长时间。

技术能力与业务契合度: 我们做的是情感陪伴、泛心理相关的业务,主要面向国内用户。

首先排除了 Llama,虽然它生态好,但在中文能力,尤其是泛心理、情感陪伴这些垂直领域的能力上可能不足。

Qwen 对中文支持较好,并且在其预训练数据中也包含了一些泛心理、情感陪伴相关的内容。基于这样的模型进行微调,更容易贴合我们的业务需求。

模型系列完整性: 我们的业务涉及从 0.5B 到 72B 的多种尺寸。目前来看,只有千问提供了这样完整的尺寸系列。如果不同尺寸用不同模型(比如 7B 用 Llama,72B 用 Qwen),会增加微调成本,需要在不同模型之间反复测试数据和超参数等。全系列使用 Qwen 系列,模型同宗同源,试错成本相对较低。

开源的持续性与可信赖度: 我们之前用过零一万物的模型,但后来他们在开源方面的策略调整了,这对我们来说比较被动。阿里(Qwen)在开源上的举措让我们觉得比较可靠,相信他们会持续投入开源,这对我们长期依赖其模型进行开发是重要的保障。

孙子钧:我们平台涉及文字、图片和视频模型,其中文字和视频模型使用得更多。

对于文字模型,我们采用的是一个混合调度系统。当用户请求进来后,我们会通过一个内部的「判别模型」(非语言模型)来分析用户的问题、用户状态(如是否付费会员)、对话长度等因素。根据判别结果,系统会将请求转发给最合适的后端模型。我们后端接入了多种模型,包括云端 API(如 Gemini、DeepSeek 等)以及我们自己部署的本地小模型。

我们的策略也会区分用户:比如,付费用户聊得越久,我们可能倾向于使用上下文能力更强的(通常是云端)模型;而对于免费用户,如果聊得太长,我们可能会「降级」使用性能稍差或成本更低的模型,或者通过这种方式引导用户付费。这些判断都整合在那个中间的转发策略里。

至于本地部署的模型,我们没有特别固定的选择偏好。核心方法是基于用户反馈的 AB 测试。我们后台有一个系统,可以追踪不同模型生成内容的「赞」和「踩」比例。比如,上线一个新模型(或新版本),我们会切分一部分流量给它,同时另一部分流量跑在现有模型上。运行一段时间后,我们看哪个模型的用户点赞率更高(我们会用一个算法将赞/踩换算成分数),就采用哪个。

模型迭代太快了。有时候新出的基础模型(比如 Qwen 2.5)可能直接上线测试,效果就比我们基于旧版本(比如 Qwen 2.0)微调过的模型要好。这种情况下,我们就先用新的基础模型,然后可能再花一两周时间基于新版本进行微调。我们内部测试的环节反而减少了,因为现在模型的「下限」普遍很高,不太会出现完全不能用的情况,主要是好用程度的差异。

叶坚白:就我目前的创业公司而言,我们是完全采用云端 API 的方式,没有租用任何 GPU,也没有部署开源模型。主要原因在于,对我们目前的业务( ToB 的 AI 服务)来说,自己去维护或微调一个开源模型,并没有带来显著的额外收益。我们测试了一圈,发现闭源模型的 API 效果确实又快又好。

考虑到我们团队规模(两到三个人),自己部署开源模型需要投入的精力,相较于直接使用 API,性价比并不高,没有看到明确的业务优势。除非有强制的私有化、断网运行需求,但我们不属于这种情况。

目前来看,成本并不是主要的制约因素,甚至可以说使用 API 的方式可能更便宜。一个关键点是 Prompt Caching 技术的普及。如果你的请求有大量重复的前缀内容,API 服务商会缓存这部分,使得后续请求的成本大大降低,折扣可能达到五折甚至一到两折(例如 1/4 到 1/8)。

当前大模型的使用和微调,面临的挑战有哪些?

一啸:谈不上「坑」,主要是针对播客场景的适配优化。核心要解决的问题包括:

  • 长音频处理: 开源 Whisper 对长达几小时甚至十几小时的音频支持不佳,不优化的话,可能处理到后面错误率会越来越高,出现「幻觉」。

  • 提示词(Prompt)效果衰减: 原版 Whisper 对提示词的支持也是前面效果好,越往后效果越弱。

  • 多语言混合(中英夹杂等): 播客中常见语言混合现象(如台湾腔+英语,日语+英语),有时甚至一句话里半句中文半句英文,需要模型能很好地处理这种情况。

我们的优化重点是解决这些播客场景下的特定问题,而不是提升模型的通用音频处理能力。

左右:分开说一下,因为我们有具身智能和线上互联网业务两块业务。

在具身智能方面,主要挑战是推理成本和生态适配。

成本: 为了隐私,模型需本地部署。如果用英伟达方案,端侧推理卡很贵(几百到几千元),远超机器人本身的成本。推理速度也可能不够快。

生态适配: 如果换用国产算力芯片降低硬件成本,又会面临生态不完善的问题。比如,让国产芯片兼容最新的 Qwen 模型(特别是像 Qwen2-VL 等多模态模型),适配周期可能很长(比如一两个月),我们等不起。由谁来做软硬件适配(硬件厂?模型厂?我们自己?)也是个问题,我们自己做成本很高。

在线上互联网业务方面,主要挑战是模型能力和推理成本/延迟。微调成本相对较好。

模型能力: 我们做情感陪伴,对情感的细粒度理解要求非常高。模型需要准确捕捉用户复杂的情感状态。比如,用户语音内容积极但语气糟糕,如果只靠 ASR 转文本,会丢失大量情感信息。这就对模型的多模态理解能力提出了很高要求(结合文本、语音、视觉等)。

推理成本/延迟: 我们的用户量和 AI 使用量增长很快,推理成本压力大。尤其是在高峰时段(如凌晨 0-1 点,峰值可能是平时的 3-4 倍),需要有效调度潮汐算力,以低成本覆盖流量洪峰,同时保证模型和算力能承载。

孙子钧:主要挑战还是模型效果/能力。成本肯定不是主要问题,因为整个行业(模型厂商、基础设施提供商)都在努力降本,就算我们不动,硬件进步也会带来成本下降。

挑战在于,本地小模型(如 7B、13B)的能力,越来越难跟上顶尖的大模型(尤其是闭源或非常大的开源模型)。比如我们自己微调的小模型,在通用能力上可能很难超过 DeepSeek V3(虽然那个模型很大,本地部署不现实)。微调可能只在非常窄的场景下有优势,做这件事的价值就相对降低了。但简单的任务还是会尽量交给本地模型处理,这主要是成本和效率的平衡。

叶坚白:在我看来,最核心的挑战绝对是模型能力。这是一个 0 和 1 的区别,如果模型能力达不到,任务根本无法完成,比如 4o-mini 和 4o 在某些任务上的差异就很明显。如果一个任务 4o-mini 就能做好,你可能就不会考虑升级。很多时候,尤其在创业初期,追求的是「能做」而不是极限的「完美」,所以基础能力非常关键。

第二点,我认为并发能力比延迟更重要。我的经验是,通常延迟高的模型,并发能力也比较差(比如之前 DeepSeek 的官方 API 就有这个问题)。在 AI 服务中,一定的延迟用户通常可以接受,但服务频繁挂掉(并发不足导致)是绝对不能接受的。所以,在模型能力满足要求后,我最看重的是并发和稳定性。

当前模型的能力,满足你们的业务场景需求了吗?

一啸:模型生成文本的质量是我们关注的另一个重点。虽然通过优化 Prompt 可以提升,模型也在迭代进步(比如「AI 味」在逐渐减少),但感觉离我们期望的非常自然、拟人化的状态还有距离。我们希望模型至少能达到七八十分的效果。

当然,也可能是我们 Prompt 还没写到极致(写 Prompt 本身也有玄学成分)。但以我心目中的理想状态衡量,还有差距。比如,从播客中提取「高光时刻」。什么是高光时刻?模型的理解和人的理解可能不同,甚至每个人被打动的点也不同。我认为,面向消费者的内容生成应用,最终一定要能和消费者的个人喜好挂钩。要实现个性化,可能不光靠大模型,还需要结合用户画像、用户记忆等技术手段。现在有很多工程上的尝试(比如用 RAG、Memory 数据库存用户偏好),但感觉效果还不够理想,有点「手搓」感。

左右:我们做的业务场景专注于情感、情绪化的泛心理应用场景,大多数模型厂商在预训练或后训练阶段都不会特别关注这部分数据。另外,即使是数据合成或蒸馏,其结果和真实用户的查询之间仍有很大差距。这就是我们坚持要做 Post-training(后训练/微调)的原因。

我们对基础模型的要求主要是通用能力(General Ability),而不是特定领域能力(Domain Ability)。如果基础模型的通用能力足够好,我们在做 Post-training 时就更容易把它拟合到我们想要的方向。如果通用能力不行(像 2023 年那样),即使有高质量的领域数据也很难调好。

而且需要注意,针对特定领域(如泛心理、情感陪伴)做 Post-training,通常会对模型的其他通用能力(如代码、数学)造成一定的损害。我们的目标是把这种损害控制在可接受范围内(比如通用指标下降 2 个点以内),同时在我们的核心领域能力上实现显著提升(比如比通用模型高 10 个点)。最近我们也会把内部的泛心理基座模型面向社区开源,反哺开源社区,推动此方向上的技术发展。

孙子钧:能力上肯定还是有差距的,有些我们想做的功能,会受限于当前模型的实际能力。

尝试通过更复杂的 Prompt 工程来调节,但发现性价比不高,而且很耗费人力。大模型本身就存在一些固有问题(比如某些词语重复出现)。你可以通过工程手段(复杂的 Prompt、后处理规则等)去解决这些 Corner Case,但这样很容易陷入「打地鼠」的困境——不断发现新问题,不断写规则去修复。这有点像上一代基于规则的 AI 客服,最后会变得非常臃肿,失去了大模型的优势。

而且,你花大力气打的「补丁」,很可能在下一次模型升级后就失效了,甚至变成负优化。考虑到模型还在快速迭代,投入过多精力去解决当前模型的特定问题,长期来看可能并不划算。我们更倾向于等待模型本身的升级来解决这些问题。

叶坚白:在我的主要业务场景里(偏数据处理),目前的模型能力我觉得还好,挺强的,基本上能满足需求。当然,更好的模型肯定能做得更好,但不是说现在的模型就完全不能用。

不过,在某些对推理、规划能力要求更高的场景,模型能力的差异就非常关键。比如之前 Agent 比较火的时候,我尝试复现了一个简单的 Manus 类的东西。用 GPT-4 时效果很差,我一度以为是我的系统设计问题。但后来换上 o4-mini,在完全一样的代码框架下(大概 1000 行代码),它就能完成很多复杂任务了,比如读取我电脑里的文件、上网搜索信息、编写神经网络代码、生成 Readme 和 Landing Page 等。这说明,尤其在 Agent 场景,基础模型的能力提升是决定性的。

如何看待目前以 DeepSeek、Qwen、Llama 为代表的开源模型的发展?

一啸:我觉得开源模型非常好,肯定会对整个 LLM 领域产生巨大的推动作用,无论是在质量还是成本层面。我们自己不用主要是团队属性(规模小、精力有限)的原因。

但我观察到,很多做 ToB 的公司(尤其在国内,需要私有化部署、可控性)几乎都在使用开源模型。比如我身边做医疗行业 ToB 的朋友,很多是在 Qwen 32B 模型上做微调,因为这个模型效果好、大小适中(一张 4090 能跑),部署成本相对可控。

此外,开源模型的存在也催生了很多提供 API 服务的厂商(大如阿里火山,小到一些初创公司),他们基于开源模型(如 DeepSeek)提供低成本的 API 服务。这对我们这样的应用团队来说,提供了更多选择,也压低了整体市场价格,是件大好事。我自己是很喜欢开源的,只是没精力搞。

左右:对开源模型整体的期待是尽可能追平闭源顶尖模型(如 Claude, GPT-4/4o)。虽然现在还没有完全追上,但开源模型比闭源更 Open,至少能拿到权重。

更具体的期待是希望它们能 release 更多的技术细节。Llama 3 和 DeepSeek 的技术报告相对详细,希望 Qwen 也能更开放地分享技术路线、探索出的数据配比等。

从差异性看:

  • DeepSeek 更激进、理想化,在 MoE、原生多模态、代码等方面探索较前沿。

  • Qwen 和 Llama(Qwen 早期 follow Llama,现在已逐渐超越)更注重社区和通用性,需要考虑更广泛的用户和场景,技术选型上可能相对稳健。

这种差异化定位在开源社区里是正常的。

孙子钧:交给用户选择。哪家出了最新的、我们能用的模型,就部署上去,通过 A/B 测试看用户反馈。我们不怎么看公开的 Benchmark 或指标,因为那些通用指标不一定能反映在我们具体的业务场景下的用户偏好。

叶坚白:对开源生态没有特别深入,但从一个中国创业者的角度看,DeepSeek 和 Qwen 在开发者关系和模型迭代上做得非常好。DeepSeek 口碑一直不错。Qwen 来自阿里,给人的感觉是非常彻底地在做开源,没有藏着掖着,版本迭代很快,而且开发者社区(如魔搭 ModelScope)也做得不错。我对 Qwen 的信任度很高。

如果需要用到开源模型,我可能会优先考虑 DeepSeek 的最新版本和 Qwen 的最新版本。相比之下,Llama 3 之后感觉讨论度有所下降。我个人感觉,在当前的开源模型迭代上,中国厂商的表现非常抢眼,甚至可能处于领先地位。

觉得当前大模型创业最容易被忽视的坑是什么?

一啸:总的来说,还是要相信模型的持续升级能解决很多问题。很多应用团队,尤其是小团队,应该都是这种心态,不太会去深度折腾开源模型本身。

Podwise 首先是一个「播客应用」,然后才利用 AI 能力。是我们对产品的定位。我们首先是解决一个应用场景的问题,AI 对我们来说是一项可利用的能力、一个提升效率的工具。很多人不仅用 Podwise 的 AI 功能,也用它来日常听播客。最终 Podwise 能存活下来,核心在于我们做了一个用户需要的「播客 APP」,而不只是一个 AI 工具。

即使没有 AI,如果我手工去听播客、写高质量总结,我相信也能卖钱,只是效率极低。AI 帮助我们提高了效率。我们的核心还是要专注在我们选择的应用场景本身

左右:我觉得一个比较大的问题是模型与产品的适配度,以及对 AI 在产品中角色的理解。

很多人认为 AI 来了,可以用它重做一遍旧需求,或者简单地把 AI API 接到旧产品上。但我认为 AI 更多是后端能力,是处理信息的工具,而不是直接交付结果的前端界面。

现在很多产品给用户的感觉是直接在和一个聊天机器人对话。但在我看来,AI 应该藏在后端,用来深度处理用户的输入,实现真正的个性化,然后再交付结果。

例如,在情感陪伴中:

  • 用户发来语音,AI 不仅是转文本,更应该分析语气、语调,并将这些情感信息融入 Prompt。

  • AI 应该分析对话上下文的逻辑、情绪变化,让下一轮的回复体现出这种个性化,而不是千篇一律地遵循某个 System Prompt。

很多开发者追求简单的「端到端」,认为大模型能简化一切。但在很多领域(尤其情感),原本需要复杂处理的环节,现在依然需要,甚至可以借助 AI 做得更精细。直接用 AI 替代这些环节,可能导致产品缺乏深度和个性化。

我认为正确的模式应该是 「X + AI」**,而不是 「AI + X」。核心是挖掘和理解用户需求(X),然后思考如何用 AI 更好地解决这个需求。而不是有了 AI 技术,再去找一个场景(X)去套用。

一个重要的观察指标是用户留存。很多 AI 产品(如一些角色扮演应用)留存很差,这往往意味着产品没有抓住用户的真实痛点,个性化做得不够好。如果你的产品是基于真实需求(X)构建的,留存通常不会是核心问题。现在很多产品可能是在做一个伪需求。

孙子钧:坑肯定很多,但我个人觉得,大部分 AI 创业者失败的原因,可能并不在于 AI 技术本身。AI 创业者的成败,更多取决于商业化、增长、运营、产品方向、用户需求满足度等方面。

因为对于大多数应用层创业者来说(包括我们自己,某种程度上也是在「套壳」),核心的模型能力并不掌握在自己手里。你的成功与否,不太可能完全由你用了哪个模型、或者你的 Prompt 比别人好一点点来决定。如果模型能力决定一切,那 OpenAI、Google 这些公司就通吃了,但现实并非如此。最终还是要回归到商业的基本逻辑:你的产品是否真的解决了用户的某个需求?用户是否愿意为之付费?这些可能比死磕模型本身更重要。

叶坚白:第一个比较常见的坑(尤其在 2023 年比较明显),是高估了自有数据或特定场景的价值,认为可以轻易训练出远超通用模型的、具有壁垒的「垂类模型」。事实是,很多所谓的「垂类」并没有那么「垂」,很容易被能力更强的基础模型覆盖。而且,大模型训练需要的是大规模、高质量、多样化的数据,特定业务场景积累的在线交互数据,其「飞轮效应」可能不如传统互联网(如推荐系统)那么明显。我认为目前在 AI 应用层面,真正的「数据壁垒」是很少见的。

第二个相关的点是,过度关注模型本身带来的优势,而忽视了其他护城河。有时候,一个优秀的 UI/UX 设计或者对用户需求的深刻理解,可能比模型指标上的一点提升更能留住用户。模型能力的优势往往是暂时的。

第三,可能需要重新思考「垂类」的概念。很多在传统 SaaS 或互联网时代被认为是独立垂类的东西(比如不同类型的写作、不同的分析任务),在强大的通用 AI 面前,可能都属于其通用能力范畴。AI 能力的构建方式和传统的软件不同。

这涉及到 AI 发展中一些反直觉的现象。比如,我们可能直觉上认为让机器人在家做家务比在精密工厂工作更容易,但现实是反过来的;我们可能认为 AI 会先擅长逻辑推理再擅长艺术创作,但现实也并非如此。这意味着我们基于过去经验对「难易」、「垂类」的判断,在 AI 时代可能需要调整。过于复杂的 Workflow 可能很脆弱,而看似「边角料」的运行环境或交互层可能更有价值。

总之,真正属于 AI 时代的「垂类」或「壁垒」,可能需要用不同于以往的思路去发掘。



(文:Founder Park)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往