只靠文字喂大的AI,终究还是缺点什么?
近日,人工智能泰斗Yann LeCun给当前火热的大语言模型(LLM)泼了盆冷水:光靠文本训练,永远也别想达到人类级别的人工智能。
Yann LeCun给出的理由极为简单又扎心——人脑从视觉中获得的信息量,比文字多得多。
信息量大比拼:人脑 vs 大语言模型
在一次公开演讲中,LeCun拿出了一组引人深思的数据:
典型的大语言模型通常被训练成20万亿或2万亿个token(一个token约3字节),总共大概包含10¹⁴个字节的信息。这些信息相当于互联网上所有公开可用文本的总和,普通人类通读这些内容大概要花几十万年。
然而,这么庞大的信息量却与人类一个四岁儿童通过视觉系统获取的信息量相当:
一个4岁儿童清醒的总时间约为16,000小时,通过视觉神经,每秒钟就有2兆字节的数据涌入大脑。累计下来,这也大约是10¹⁴个字节的信息。
也就是说,四年视觉数据,就已经超过了互联网全部文字信息。
LeCun 认为结论显而易见:
我们永远无法仅凭文本训练达到人类水平的AI,必须让系统真正理解现实世界,而理解现实世界非常困难。
这直接戳中了当前大语言模型的软肋:缺乏多模态的输入,无法真正理解世界。
消息一出,网友们瞬间讨论炸锅了。




——犀利的观点往往对错都有人站。

Jake.Firefly(@Jake.Firefly) 则直言LeCun过去屡屡犯错,这次又在制造“老掉牙”的观点:
无法打造顶尖模型的人竟然又开口了,哈欠🥱。
但也有人站出来支持LeCun,认为视觉才是关键。比如Ant A(@Ant A) 表示:
视觉模型如果足够好,再加上实时的数据流输入,这事并不难搞定。
Merlin🦉(@Merlin) 也附和说:
绝对正确,多模态才是关键。
盲人的智能又如何解释?
——有人抛出反问,让话题更有了点意思:

网友K(@K) 提出了一个尖锐的问题:
从出生就失明的人,并未获得这些视觉信息,但智力水平并不逊色于普通人,如何解释?
λthugg-huh?(@λthugg-huh?) 进一步补充到:
是不是视觉数据其实可以高度压缩?你难道需要扫描一百万次苹果,才能认出一个苹果?
显然,这场关于AI数据量和智能本质的争论并未结束。
信息量 vs 数据效率
与此同时,另一场辩论悄然开始:信息量和数据效率哪个更关键?
Florian Gallwitz(@Florian Gallwitz) 对LeCun的观点表示强烈不满:
这种说法漏洞百出,他根本就没有理解基本的信息理论。
Dean Swanson(@Dean Swanson) 却站在LeCun这一边:
没有行动和反馈的AI,不可能真正理解世界。
还有人从哲学角度提出了质疑,比如Mind Prison:
如果仅凭数据就能获得智能,那么人类的智力早该随数据量显著提升了,但事实并非如此。
Llama的表现与LeCun无关?
一些网友顺势把矛头对准了Meta旗下的Llama模型。

但@Yehyun及时出面澄清,表示LeCun并未负责Llama模型:
大家误会了,他并未参与Meta的LLM研发,Llama表现不好,跟他关系不大。
对此,Lior⚡(@LiorOnAI) 也表示赞同:
对,Llama表现如何,其实跟这次视频内容关系不大。
争议之外的共识
不管是支持还是反对,AI领域的共识是:仅凭文本训练不足以通向通用人工智能。视觉、多模态、行动反馈,这些才是真正突破瓶颈的关键。
LeCun这一番冷水,也许恰好提醒我们:未来AI的发展,需要更多地将目光投向现实世界。
你怎么看?
(文:AGI Hunt)