专访好未来CTO田密:通用模型技术狂飙,垂直模型必须更懂行业


文| 吕虹

在国内外大模型的竞合角力中,中国教育科技赛道的政策风向标和行业潮涌已显现“双向奔赴”之势。
今年初,中共中央、国务院就印发《教育强国建设规划纲要》,明确提出要面向未来产业发展,打造人工智能教育大模型。文件下达的同期,一场由国产大模型DeepSeek引发的技术海啸正席卷教育科技行业。
学而思、作业帮、网易有道、猿辅导等一批头腰部教育公司悉数官宣接入DeepSeek;与此同时,DeepSeek在数学、推理等方面出色亮眼的表现,叠加高性价比的成本破圈效应,更是让教育大模型原生应用市场今春以来的上新速度明显加快。
数理解题能力逼近人类顶尖水平、推理效率跃升、开源生态爆发——以DeepSeek为代表的通用大模型的进化速度,让从业者既兴奋又焦虑:当技术门槛被快速拉平,教育原生垂类模型的价值如何体现?AI助教如何跨越“低容错率”的生死线?真人教师会被替代吗?
近期,南都记者独家对话学而思CTO田密。作为国内首个专为数学打造、如今已覆盖全科的教育大模型——“九章”的核心构建者,他在对话中系统性回应了开源与自研的竞合逻辑、应对AI幻觉的“三重防线”,以及在AI重塑教育生态过程中理念与技术的博弈。在这场对话中,一个贯穿始终的结论是:教育的本质是人的成长,而技术狂飙的年代,守住精准与责任,或许比追逐速度更重要。
学而思CTO田密
教育AI的双轨策略:
自研与开源并行
“垂直模型必须更懂行业”
南都:学而思已有自研的九章大模型,为何选择同时接入DeepSeek?
田密:教育场景的需求复杂且多元。DeepSeek的强项在于复杂问题拆解和语言交互,而学而思的九章大模型深耕数学推理与学科知识图谱。以学习机为例,用户通过“小思”智能助手聊天,通用的百科问答、小思会话,可能会由DeepSeek回答;而教育专项功能,如拍批、答疑、精准学等,仍需调用九章垂类模型的深度支持,两者是互补的关系。
DeepSeek作为开源通用模型,在深度推理能力上表现突出,我们很早就决定将其作为基座之一。现在,DeepSeek的V3版本已成为九章大模型的基座之一,且加入了大量教育行业专有的数据,在AGI通用能力基础上,进行教育专精能力的二次训练。
南都:近期印发的《教育强国建设规划纲要(2024—2035年)》,专门就“促进人工智能助力教育变革”做出部署,要求面向数字经济和未来产业发展,打造人工智能教育大模型。能看到政策端其实也非常关注教育行业模型的发展生态。那么,在您看来,相比行业垂类模型,DeepSeek这类通用模型的技术特性与教育场景的适配度如何呢?
田密:其实经过我们内部的多轮测试,DeepSeek目前还不能当做一个AI老师去用的,还有大量问题,例如“超纲讲解”,给初中孩子讲题时,用到了高中的知识点;“幻觉”问题,回复的答案或引用的知识有错误;以及需要它进行“鼓励式提问”时,不能很好地理解或完成,这也是通用大模型易出现的问题。
而行业垂类模型,就以我们自研的九章来说吧。实际上我们也并不是从零开始训练它,而是在优秀的开源通用模型基础之上,运用大量的教育专业数据做后训练,才让它在数理答疑上有目前亮眼的表现。所以在我看来,通用大模型的技术性能越出色,对于其所搭载的垂类模型来说,基座基础就能打得更扎实,回归到教育场景来说,对教育大模型的提升效果也就更好。
南都:据了解,目前DeepSeek-R1版本在数学推理能力上已经接近九章大模型当前水平,未来伴随优秀的头部通用模型不断涌现,贵司会否放弃自研模型的赛道?
田密:不会。其实,垂域大模型与通用大模型有很多互补之处,而学而思从自研九章大模型之初,就坚定了走最优秀的开源大模型基座+行业数据后训练的路线。自研与合作的核心逻辑是“站在巨人肩膀上创新”。未来,学而思将积极探索与更多优秀大模型的合作。
其实DeepSeek出来之后,我们也很震惊,能看到它在解题能力上确实已经非常接近我们现在的水平了。但需要明白,解题能力只是教育场景的一环,在讲题答疑等多轮对话方面,我们测试显示DeepSeek对用户的感知和直接使用效果,实际上还是没有九章好。像拍照批改、分步骤诊断、个性化答疑等复杂流程,目前还是调用九章完成,这是AGI暂时无法替代的。
毕竟作为通用类大模型来说目标更趋近AGI,很多细分的垂类赛道能力——比如理科答疑这样的具体教育场景,并不会让它停下脚步过多深入。而与此相对,垂类教育大模型在教育能力上,相比AGI会做得更加深入,这也是我们差异化发力的竞争优势所在。
当然,随着通用模型越来越聪明,垂直模型必须更懂行业。这意味着一方面,垂类模型需不断强化数据壁垒,建立自己的护城河;另一方面,如何将大模型与教育专业知识深度结合也是重要挑战。我相信未来,通用大模型与垂类模型将长期共存——前者解决“广度”,后者深耕“深度”与“精度”。
南都:学而思计划开放“多模型回复对比功能”,是否意味着打造教育领域的“模型超市”?
田密:技术浪潮初期,产品形态还需进一步探索。我们的目标不是简单堆砌尽可能多的模型,而是以开放心态整合前沿技术,服务于可靠的学习体验。在我们的学习机中,用户提出一道题目时,系统能自动调用多个模型来交叉验证答案,同时结合题库匹配和真人审核兜底,确保准确性。教育产品的容错率趋近于零,技术必须服务于精准性,而非追求“多而全”。
低容错率下的技术攻坚:
破解“AI幻觉”难题
理科答疑模型原生应用市场爆发
南都:学而思如何应对大模型的“幻觉输出”问题?
田密:基于学而思的知识库和用户画像库,我们目前主要通过搜索召回增强技术(RAG)和真人教师复核机制缓解。
具体来说,也就是立足积累的题库,再叠加多个大模型同时交叉验证。可以理解为建立了“三重防线”:第一,题库优先匹配,基本上90%的题目直接调用预存解析,确保答案标准化;第二,多模型交叉验证(九章、DeepSeek、千问等),仅当答案一致时才反馈给用户;第三,真人教师快速复核争议结果。
我们通过在数据库中搜索并召回相关问题,设置约束条件,确保AI老师围绕正确答案进行讲解,避免给出错误的解答。RAG技术可以实时抓取最新数据,修正时效性错误。
我们也开发了专门的LaTeX合法性检测工具,将公式转义为正确的文本格式,确保数学推理的准确性。
南都:DS等通用类模型入局,理科答疑类教育大模型原生应用涌现,这已然成为2025开年教育市场最火热的现象。有业内观点认为,伴随AGI的加持,2025年或成为教育大模型原生应用的分水岭。您怎么看?这对教育科技市场既有的题库类产品形态有何影响?
田密:正如您提到的,“DeepSeek×教育大模型”的解决方案,的确在今年以来加速了理科答疑的突破。
以往大模型难以攻克理科答疑的核心原因,还是答题准确率不够。教育产品的容错率趋近于零,用户对答错题的容忍度极低,技术必须服务于精准性,一旦出错会严重影响用户体验。而DeepSeek R1模型的深度思考模式让理科答疑产品的可用性大幅提升,毕竟它测试的数学纯文本题目准确率已经与真人接近甚至超过真人。在其基座之上去做产品,市场想象空间就被打开了。
对题库类业务的市场冲击无疑是很大的。从产品范式来看,题库类产品只能提供录制好的解析,理科答疑类产品则可以提供交互式解析,类似于一名教师给学生分步骤讲题,学生随时可以反馈自己的疑点。伴随教育大模型交互答疑准确率的不断提升,各家对题库的依赖是直线下降的,用户和流量无疑将更多奔向能提供实时交互与回答的AI入口。
但我前面也提到,即便是DeepSeek也无法做到针对不同学龄的用户解析,比如给三年级学生回答“鸡兔同笼”问题,大模型会用三年级还没学到的方程法进行解析。此外,多模态解析图片的准确率当下还不高,而实际上数理答疑版块中,图形题的占比接近40%,还是比较高的。这部分目前还是依赖多模态大模型加上题库的综合能力去做的。所以留给题库类产品的时间窗口还是有,还要看大模型多模态技术的突破情况。
南都:如今,AI教育硬件已经深刻介入青少年学习的日常,作为教育科技领军企业,学而思的AI教育产品如何保障用户数据隐私安全?
田密:我们所有用户数据存储均严格去隐私化,仅保留学习行为与匿名ID关联。在B端业务中,我们正探索与高校、科研院所等机构合作,以区或市为单位建立本地化数据池,我们仅提供技术服务。AI教育硬件的一个基本技术伦理,就是必须平衡创新与安全,在这个层面上来说,通用模型往往缺乏教育场景的“安全护栏”,而这也是垂类模型的核心价值。
AI重塑教育生态中的博弈:
“教育的终点,永远是培养会思考的人”
南都:有人忧虑,AI的强势介入导致学生逐渐失去独立思考和动手能力,作业“AI味”渐浓?在这场技术变革的浪潮中,您如何看待大模型与学生学习之间的关系?
田密:教育拥抱大模型,本质上其实并非一个用或者不用的单选题,数智学习新范式的关键,是要如何结合不同情境,明确使用目标与合理边界,让大模型真正成为学生的数智助手。因为学习的本质不是记忆和重复,而且培养分析、判断、创造等内驱思维力。
像您刚才提到的新闻,说今年不少小学生寒假作业都依赖DS了,很多人就担心AGI的普及是不是会扼杀学生的创造力和想象力,滋生学习惰性。我倒不这么看。首先如果说抄答案,其实在DS这种通用大模型能力破圈之前,用拍搜类的应用搜题答题,在中小学生中也早就遍地开花,这种惰性并不是和AGI强绑定的。
更重要的是,要清醒意识到拥抱AI是大势所趋,靠禁是禁不住的,实际上在“人机共生”是未来的必然命题情况下,我更倾向于认为大模型的核心价值恰恰是启发思维与创新。正因为大模型的内容输出不是绝对正确的,需要学生具备筛选、评估和修订信息的能力,这就提供了一个非常好的不断反思、持续求证的教育场景。这一过程不仅不会削弱学生的创造力,反而能帮助他们跳出思维定势,寻找结构性的创新点。
南都:您曾谈及教育AI的终极目标是L4或L5,即99%的任务由AI完成,只剩1%的人类情感交流和技能传授。那么,当有一天L4级AI学伴(AI主导学习)成为现实,真人教师会被取代吗?
田密:AI可能会对学习模式、教育内容、师生之间的交流方式带来变化甚至重构,但永远无法替代真人老师。
AI的优势是高效传递知识,但育人需要情感互动和价值观引导,这是机器的盲区。未来,AI的目标是成为“超级助教”——辅助教师批改作业、分析学情;同时作为“学伴”,提供24小时答疑。但如何正确使用AI、辨别信息真伪,仍需真人教师教导。技术越发达,教育中“人的角色”越不可替代。
南都:未来5-10年,AI教育的关键机遇与挑战是什么?在这波AI浪潮中,你觉得什么是教育科技公司的立身之本?
田密:DeepSeek的出现,在短期内,可能会通过低成本、高效果的开源模型,加速教育类AI原生应用创新涌现;从长期来看,整个教育科技领域有可能会在AGI技术加持下演变出更多阶段性产品——比如“具身智能”可能走进家庭,以机器人的形式陪在孩子周边,成为孩子的成长伴侣。
但技术爆发也带来挑战:通用模型缩小技术差距后,产品竞争将转向综合体验。这就需要我们在技术和产品上持续攻坚,也需要企业在成本研发方面下功夫。但这也是好事,这样才能使得AI native的应用,或者是大模型时代原生的AI产品更好地发展。
最重要的,企业需要更多在成本与创新间找到平衡——既要拥抱技术红利,也要守住教育本质。其实我一直都反复讲,“容错率趋近于零”是教育行业有别于其它行业市场的特性。无论是模型迭代、技术兜底,还是面向C端或者B端乃至出海的业务布局,学而思的策略始终围绕“精准”与“可靠”展开。
在Deepseek这类通用模型的技术狂飙突进时,教育科技公司更需要一份敬畏——对知识的敬畏,以及对“人”的敬畏。在我看来,无论AI技术再有怎样的革命性发展,它的目标都是成为人的助手,而不是代替人。教育的终点,永远是培养会思考的人。

(文:AI前哨站)

欢迎分享

发表评论