引发 AI 热潮的原始代码开源了!Hinton 靠它获的诺奖,Ilya、Krizhevsky、李飞飞都有大贡献

整理 | 华卫、核子可乐

近日,谷歌与计算机历史博物馆(CHM)联合发布了 AlexNet 项目源代码。目前,项目的 Python 代码已作为开源软件在 CHM 的 GitHub 页面上对外开放,允许 AI 爱好者和研究人员一窥这项在计算发展史上开天辟地的关键成果。

AlexNet 是一种卷积神经网络 (CNN),其在 2012 年时被公认改变了 AI 领域的面貌,表明“深度学习”可以实现传统 AI 技术所无法达成的诸多功能。

深度学习技术采用多层神经网络,无需明确编程即可从数据中学习,由此开辟了一条与依赖手工制定规则与特征制定的传统 AI 截然不同的实现路径。深度学习推动了医疗保健、科学研究和无障碍工具的进步,但它也促进了深度伪造、自动监控以及广泛失业的可能性等发展。但在 2012 年,这些负面后果对于当时的人们来说还只是个遥不可及的科幻梦想。专家只是惊讶于计算机终于能够以接近人类的准确度识别图像内容。

作为 AI 发展的一个分水岭,AlexNet 能够以前所未有的准确度识别出照片中的物体——具体来讲,它能正确将图像归入 1000 个类别中的具体一个,如“草莓”、“校车”乃至“金毛犬”,且错误率远远低于以往的 AI 系统。

如同观察最初 ENIAC 计算机的电路设计或者 Babbage 差分机一样,AlexNet 的源代码将让未来的历史学家们了解一项相对简单的实现方案是如何激发出重塑整个世界的 AI 技术的。

AlexNet 原始真实代码得以公开

正如 CHm 在其博文中所介绍,AlexNet 源自多伦多大学研究生 Alex Krizhevsky 和 Ilya Sutskever 及其导师 Geoffrey Hinton 的工作。该项目证明,深度学习技术确实胜过了传统计算机视觉方法。

神经网络凭借远超以往任何方法的质量识别出照片中的物体,并最终赢得 2012 年的 ImageNet 竞赛。当时正在意大利佛罗伦萨聆听相关演讲的计算机视觉资深专家 Yann LeCun 立即意识到它对 AI 领域的重要意义,据报道他在演讲结束后站起身来,称 AlexNet 是“计算机视觉历史上的一个明确转折点”。更具体地讲,AlexNet 的出现标志着定义现代 AI 的三大关键技术由此开始融合。

据 CHM 解释,该博物馆于 2020 年起开始努力获取这批具有历史意义的代码。当时 CHM 馆长 Hansen Hsu 曾联系 Krizhevsky 讨论能否发布源代码,但由于谷歌在 2013 年收购了该团队所属的 DNNresearch 公司,因此知识产权归属问题导致开放计划未能成行。

该博物馆与谷歌合作了五年,就发布事宜展开了谈判,并认真确定了哪个特定版本才是 2012 年的最初实现——之所以需要认真琢磨这个问题,是因为网上已经存在大量号称是“AlexNet”的二创版本,但都并非引发突破的真实代码。

背后的技术创新

虽然 AlexNet 对 AI 的影响如今已经成为传奇,但了解其背后的技术创新仍有助于解释它为何能够代表这个关键性的里程碑。具体来讲,这一突破并非单一技术革命的结果,而是先前单独开发的多项现有技术的优雅组合。

该项目融合了之前相互独立的三大组件:深度神经网络、海量图像数据集与图形处理单元(GPU)。深度神经网络构成了 AlexNet 的核心架构,其拥有多个层,能够学习极其复杂的视觉特征。该网络以 Krizhevsky 的名字命名,纪念他实现了这套系统并完成了广泛的训练过程。

与传统 AI 系统不同,之前的 AI 项目要求程序员手动指定要在图像中寻找哪些特征。相比之下,深度网络则能够自动发现不同抽象级别的模式——从早期图层的简单边缘与纹理,到更深层中的复杂对象部分。

但需要注意的是,AlexNet 使用专门用于处理图像等网格状数据的 CNN 架构,这与当今大语言模型(例如 ChatGPT 和 Claude)依托的 Transformer 模型有所区别。后者源自谷歌研究院 2017 年的一项发明,Transformer 擅长处理顺序数据并通过所谓“注意力”机制捕捉文本及其他媒体中的长距离依赖关系。

在训练数据方面,AlexNet 使用了 ImageNet,即斯坦福大学教授李飞飞博士于 2006 年建立的数据库。李飞飞收集了数百万张互联网图像,并将其整理成名为 WordNet 的数据库当中。亚马逊 Mechanical Turk 平台项目的工作人员则帮助对这些图像进行了标注。

该项目需要强大的算力资源才能处理这些数据。为此,Krizhevsky 在父母家卧室的一台计算机上安装了两张英伟达显卡,并借此完成了训练过程。神经网络会并行执行大量矩阵计算,而图形芯片能够很好地处理这些任务。在黄仁勋的领导下,英伟达于 2007 年发布的 CUDA 软件为其图形芯片赋予了可编程能力,由此掀开了显卡在非图形任务领域的一路狂飙。

AlexNet 的影响当然不仅限于计算机视觉。如今,深度学习神经网络正在为语音合成、游戏系统、语言模型和图像生成器等提供支持。而从负面角度来看,它们也在生成大量社交垃圾信息、帮助集权者监控民众甚至篡改历史记录,最终有可能造成严重的社会撕裂。

核心开发者们如今在做什么?

在取得突破的 13 年之后,AlexNet 的核心开发者们将自己的专业知识运用到了不同方向,每个人都在以独特的方式继续为 AI 领域做出贡献。

在 AlexNet 取得成功之后,Krizhevsky、Sutskever 与 Hinton 成立了名为 DNNresearch 的公司,并于 2013 年被谷歌收购。自此之后,各位团队成员走上了不同的发展道路。Sutskever 于 2015 年参与创立了 OpenAI,该公司于 2022 年发布了 ChatGPT,近期又推出了 Safe Superintelligence (SSI) 并以初创身份获得 10 亿美元融资。Krizhevsky 则于 2017 年离开谷歌,在 Dessa 从事新的深度学习技术研究。

Hinton 因警告未来 AI 系统的潜在危险而备受争议,他于 2023 年从谷歌辞职,以便能更自由地讨论这个话题。去年,Hinton 与 John J. Hopfield 共同获得了 2024 年诺贝尔物理学奖,以表彰他们在上世纪 80 年代初在机器学习领域做出的开创性贡献。消息一出,整个科学界备受震动。

关于成就 AlexNet 的最大功劳该归于谁,Hinton 以他特有的幽默感向计算机历史博物馆做出了这样的介绍:“Ilya 觉得我们应该试试,Alex 把事做成了,却是我得了诺贝尔奖。”

(文:AI前线)

欢迎分享

《引发 AI 热潮的原始代码开源了!Hinton 靠它获的诺奖,Ilya、Krizhevsky、李飞飞都有大贡献》有1条评论

发表评论