当大模型有了眼睛,教育场景有了更多可能。
来源|多知
作者|王上
2月21日,腾讯AI助手“腾讯元宝”上新,现在腾讯元宝的DeepSeek能够理解图片信息。这是继2月13日腾讯元宝接入Deepseek-R1满血版以来的又一进展。
此前,DeepSeek主要支持扫描图片中的文字。升级后,在腾讯元宝,关闭联网搜索后,用户发送任意图片,元宝都能结合图片内容给出自己的分析和理解。
据了解,这项功能结合了混元的多模态理解能力,也是元宝双模型特征的体现。
当大模型有了眼睛,教育场景有了更多可能,如知识即拍即得、作业批改等,以及未来有视觉能力的大模型和硬件结合将有更大的想象空间。
然而,多知体验发现,以教育场景中的一个痛点场景“作业批改”为例,通用大模型的深度思考模式未必是高效的模式。
多知开启腾讯元宝“深度思考”模式,体验数学口算批改,上传了一张四年级口算题目图片,共48道,系统会逐一核对题目的计算过程和结果,全部思考用时90秒,给出结果还需要60秒。
(腾讯元宝的思考过程和结果输出)
而用教育领域的拍照答疑软件随时问和小猿AI 识别同一张图片,一两秒即可。
(随时问和小猿AI批改结果)
从正确率来看,腾讯元宝的识别率很低,48道计算题,系统给出的判断是3道错误,6道未答。而教育领域的拍照答疑软件,识别所有题目的答案都作答正确,且也能给出详尽的解析。
可以看到,对于作业批改来说,题目的识别是通用模型需要跨越的第一道坎。
再以批改作文为例,多知开启腾讯元宝“深度思考”模式,上传了一篇小学四年级的手写作文照片,首先学生作文题目中有错别字,腾讯元宝没有给予提醒。
(小学四年级的作文)
并且,学生作文中书写的“简直”、“地狱”两个词中的“简”和“狱”是用拼音代替的,腾讯元宝则认为这是学生书写的错别字。实际上,小学四年级的孩子是允许在作文中使用一两个拼音的。
由此可以看到,腾讯元宝不是专有的教育App,是通用的思维,是按成年人的模式进行思考的。这也从侧面反映了教育领域垂类大模型针对不同年龄段分层的重要性,这也是其壁垒所在。
多知开启上传了一些与学习内容关联性不高的照片,发现识别率很高,拍照通过腾讯元宝识别后就能学习到相关知识。
比如,上传一盆绿萝的照片,它很快能识别出是绿萝,还给出了判断依据、养护小贴士等,信息全面,语言通俗易通。
多知再上传了一张照片,这是山西博物院的镇馆之宝之一“赵卿鸟尊”,并询问元宝“赵卿”是谁?
元宝仅思考了30秒,就给出了“赵卿”是春秋时期晋国正卿赵鞅(即赵简子),并且对赵卿的身份考证、历史地位以及鸟尊的象征意义都解释的详尽无遗,甚至还给出了延伸知识。
可以看到,借助腾讯元宝来探索通识知识,或是让它充当指引旅游的导游,都是颇为适宜的选择。
过去一周,腾讯元宝迎来一系列快速迭代和功能更新。腾讯方面表示,未来将持续优化产品能力,提升模型性能,为用户提供更优质的AI使用体验。
目前,在腾讯元宝,用户可以使用DeepSeek-R1满血版、推理模型混元T1进行深度思考,也可通过DeepSeek-V3、腾讯混元Turbo快速输出答案。
并且,腾讯元宝内的所有模型,都已支持理解图片、解析文件、联网搜公众号、从微信上传文件。与公众号和微信的打通是其独特之处。
END
(文:多知)