沃顿商学院教授Ethan:我们真的在用AI吗?还是只是让它填空、节省成本、加速灭绝路径?

作者大模型机动组 
邮箱damoxingjidongzu@pingwest.com

沃顿商学院教授、领先的人工智能研究员 Ethan Mollick  Sana 创始人兼CEO Joel Hellermark 就人工智能在工作中快速变化的世界进行了坦诚而广泛的对谈。他们探讨了人工智能如何不仅仅是一种效率工具,而是一个转折点——迫使企业在渐进式优化和转型规模之间做出选择。讨论涵盖了机器智能的根源、AGI的相关性,以及如何从零开始构建面向人工智能原生未来的组织。

以下是对话的内容实录:

Joel Hellermark我想从一开始聊起,你在麻省理工学院的时候,和 Marvin Minski 他们在一起时有哪些想法呢?

Ethan Mollick那个阶段有点像窃取技术光环,因为我不是和 Marvin 一起编程的人。我是商学院的学生,试图帮助 AI 领域的人向其他人解释什么是 AI 。所以我和 Marvin 以及媒体实验室的其他人在这方面合作了很多。

特别有趣的是,那时正处于 AI 的寒冬,所以当时人们不太关注 AI ,都在想如何创造智能的复杂方案。当时有一些项目,是观察婴儿的所有行为,认为这样或许能让我们制造出 AI ,还有政府的思维社会项目,都是这类复杂相互关联的内容。很讽刺的是,实际的解决方案最后竟然是往学习系统里输入大量语言,然后就有了大语言模型。

Joel Hellermark这很有趣,因为很多技术想法最后都被证明是错误的。不过其中的一些核心哲学思想现在又流行起来了,Minsky  Engelbart 主张增强人类智能。Minsky 更倾向于用机器取代人类智能,让机器有意识。你认为那些关于如何应用 AI 的基础理念,现在还有哪些是有意义的呢?

Ethan Mollick我们现在都在为此苦恼,因为我们已经看到了这些成果,也回到了关于增强的问题上,两周前有一篇新论文指出,GPT-4.5 已经能够通过三方图灵测试了。事实上,70%的情况下,人们会把 AI 误认为是房间里的人类,我不知道这意味着什么,但这比随机猜测要好。

我认为我们面临着一些思想家们长期以来担心的问题: AI 会取代人类吗?我们该如何利用它呢?对于增强人类智能,增强到底是什么样子成了一个大问题。比如说,我们的这场讨论,我觉得以前并没有深入探讨过,因为以前有点像虚构的东西,那么我们该如何对待这些非常智能但也有局限性的机器?人类在这个等式中又该处于什么位置?我觉得这个问题以前从未得到解答,而现在突然变得非常重要了。

Joel Hellermark 图灵测试在当时是个很棒的想法。但如果我们现在要设计一个新的“ Mollick 测试,你认为针对 AGI  “Mollick 测试应该是什么样的呢?

Ethan Mollick我一直对 AGI 这个概念感到困惑,这个概念定义得很模糊。图灵测试有趣的原因和其他测试一样,在我们没有东西可测试的时候它们都很棒。比如图灵测试在计算机明显无法通过的时候是很厉害的。我们也面临一些问题,比如 AI 在我们现有的所有创造力测试中都表现出色,但这些测试是为人类设计的,而且对人类来说也只是一般水平。

现在我们期望 AI 能通过这些测试来判断一个人是否有同理心,在社会科学中,最好的测试是读心术测试,我们给人们看一堆眼睛的图片,让他们说出图片中人物的情绪。这些测试都不是为 AI 设计的。所以我经常思考这个问题,而且我倾向于从实际应用的角度来看待它。

首先,每个人对 AGI 都有自己的测试标准。我是商学院的教授,对我来说最简单的测试标准之一就是,这个智能体能否在现实世界中赚钱、办事。作为一个有用的测试,它能否发现新知识并进行验证,得出结果?但我认为我们开始意识到, AGI 将是我们所处的一个阶段,而不是一个特定的时间点,不会有烟花绽放来宣告它的到来。Tyler Cohen GPT-3就是 AGI 。被问到原因时,他说这就像色情作品,一看便知。所以我们不知道这些问题的答案是什么,甚至我们开始意识到这些问题其实没有意义。

Ethan Mollick因为事实证明,就像你们了解到的,如果将 AI 正确地连接到系统和公司流程中,得到的效果会比各部分简单相加要好得多,这和单纯地进行对话完全不同,比如进行战略决策。

Joel Hellermark这些模型发布时,总是针对最硬核的数学问题和科学问题进行测试很少涉及更多的商业应用。如果你要确定一个更侧重于公司实际应用的基准,这个基准会是什么样?

Ethan Mollick我认为这是我们目前面临的最关键的问题之一。因为实验室里的人都是科学家,他们认为人生中唯一有意义的事情就是编程,再加上他们想用 AI 来开发更好的 AI 。所以编程和数学就成了重要的技能,其次是生物学,因为他们都想永生,所以就形成了这样一种趋势。

但在其他方面几乎没有什么基准测试。我们知道 AI 公司会为了基准测试而开发模型,并且会采用一些不太靠谱的方法来优化模型,不过他们也会用这些方法进行测试。所以缺乏好的商业基准是一个真正的问题,实际上我一直在倡导公司在一定程度上自己来做这件事。

有些可以基于具体的数据,比如让它处理会计流程时出错的频率。但有些可以基于主观感受,就像他们说的,可以请外部专家来评判答案的质量,看看是否和人类做得一样好。为你工作中的各个重要环节设置自己的图灵测试。分析报告是否足够好?错误率是多少?如果用它来提供战略建议,决策选择的质量如何?这些问题并不难衡量,也不是很专业,但确实需要付出一些努力。

Joel Hellermark我认为产品在这方面也存在很多不足,尤其是部署智能体时,测试这些智能体、了解它们掌握的知识和欠缺的知识、纠正它们并运行测试集的能力非常有限。当我们考虑设计一个以 AI 为先的组织时,假设你有一家千人公司,要将这个组织重新设计成完全可评估的,你会如何构建它?

Ethan Mollick首先,将组织重新设计成以 AI 为核心并不容易,因为它原本并不是这样的。我们正处于一个非常有趣的阶段,几百年来,组织发展与工业革命、通信革命并行。第一份组织结构图于1855年为纽约和伊利铁路公司绘制,它解决了一个前所未有的问题,即如何利用电报实时协调铁路线上的大量运输。麦肯锡的创始人想出了组织结构图这个解决方案,我们至今仍在使用。后来还有很多重大的组织创新,比如亨利·福特的生产线、时钟打卡制度,我们现在还在使用,还有敏捷开发模式。

所有这些模式的前提都是只有一种智能形式,即人类智能。人类的能力有限,管理跨度通常是五到七个人,这就是所谓的两个披萨原则。而现在情况不同了,我们需要从头开始重建。我有点担心现代西方公司已经放弃了组织创新。

过去,陶氏化学公司或IBM公司获胜的方式是想出新的销售方法或与其他组织合作的新方式。而现在,我们把这些都外包出去了。企业软件公司会告诉你如何组建公司,因为Salesforce 会卖给你他们的产品,教你如何进行销售,大型咨询公司会告诉你如何运营组织。现在是领导者真正需要创新的时候了。

回到最初的问题,重新设计组织时要考虑到一个趋势,即产品中对人类的需求会减少。然后你要选择是增强人类能力还是取代人类,再从这个角度开始构建系统。是让更少的人完成更出色的工作,还是让更多的人做更多的工作,一起征服世界。

Joel Hellermark这是否意味着我们会减少所谓的超级员工?还是说我们会让每个人的生产力提高一倍?是组建小团队来监督智能体的运作,大幅提高生产力,还是在整个组织中广泛部署,让少数人获得更多提升?

Ethan Mollick我认为这些都是关键的选择。我担心的一点是,从早期的应用情况来看,人们把 AI 看作是一种提高效率的技术。这我也有点责任,我们最早研究关注的是 AI 带来的生产力提升,我现在仍然关注这一点,因为这很重要。但我非常担心,在工业革命边缘,或者说在这场新的革命中,公司把 AI 当成了普通技术。

比如,他们通过 AI 在客服方面提高了25%的效率或节省了成本,就会裁掉25%的员工,我经常听到这样的情况,这有很多风险。其中一个风险是,除了你自己,没人知道如何在你的组织中部署 AI ,你可以开发出非常有用的工具和技术,但最终,公司里的人要判断这些是否有用。他们有相关经验和证据来做判断。如果他们因为使用AI 会被解雇、受罚,或者会被取代而不敢尝试,那么即使 AI 能提高效率,他们也不会让你看到。

另一个问题是,如果我们即将迎来生产力的爆发,在这个时候把组织规模缩到最小是不明智的。就像想象一下19世纪初的工业革命,如果当地的酿酒商有了蒸汽动力,他可以选择解雇大部分员工,提高每桶麦芽酒的利润;也可以效仿 Guinness ,雇佣10万人,向全球扩张。我的确担心太多人选择小格局的道路,而不是大格局的道路。

Joel Hellermark你一直倡导增强人类能力,就像我们以前常说的思维自行车,现在我们可能在一定程度上拥有了思维飞机,你认为 AI 将如何增强人类智能?这和我们以往的认知有些不同。我们过去认为 AI 会先从单调重复的任务开始,然后发展到知识工作、编程,最后才是创造性任务。但实际上情况几乎相反,创造性任务和知识工作方面 AI 表现不错,但单调重复的任务却很难实现自动化。你认为我们应该如何应用 AI 

Ethan Mollick很有意思的是,当你试图向 AI 解释这个概念时,它可能会死机,无法理解。但现在我们有了一些奇怪的系统,它们非常情绪化,需要被说服才能做事。例如,在提示工程中,有时你得向 AI 解释为什么它应该做某一步,而不是直接命令它做。要告诉它这很重要,你应该这么做,这很奇怪。

说到增强人类能力,我们的工作是由很多不同的任务组成的,没人会按照现在的方式设计一份工作。比如我作为一名教授,我要做很多事情,要成为一名好老师,提出好的想法,和你们交流,做研究,管理学术部门,这些任务中很多都可以交给 AI 。我不介意让 AI 来批改作业,如果有帮助的话。我也不介意通过 AI 提供更多的咨询支持,如果这有帮助的话。

所以增强人类能力并不意味着因为 AI 能完成创造性、知识性的任务,它在这些方面就比人类更优秀。至少目前来看,在这些方面它还达不到专家水平。你最擅长的事情,你可能比 AI 做得更好。所以,增强人类能力的第一步是把工作中你不擅长的部分交给 AI 。第二步是利用 AI 提升你正在做的事情。我们也开始有一些相关的证据支持这一点。

Joel Hellermark当这些系统变得更加主动而不是被动时会怎样?目前我们非常依赖给系统输入信息,让它们给出反馈,进行提示等。在某个时候,我们应该会有比我们更擅长提出问题的系统,它们能主动为我们服务。以你的领域为例,有没有出现过这样的情况,系统替你完成所有研究,然后对你说“Ethan,这些符合你的研究方向,我写了五篇论文,你选一篇最好的

Ethan Mollick你提到的几点非常重要。其中一点,虽然相对次要,但也很关键,就是系统给我提供十篇论文的情况。现在我们面临的问题是信息丰富但过剩,我们还不太习惯能轻松获取大量信息并进行筛选的情况。所以筛选信息的能力变得非常重要,能够从众多选项中挑选出合适的内容,这有点像管理能力,毕竟很多人都渴望具备管理能力。关键是如何引导系统朝着我们期望的方向发展。

但最终,我们不确定这些系统能发展到多好的程度,而每个问题都取决于你对 AI 发展的预期。如果 AI 能在高水平上完成我们组织中的所有工作,比如我作为教授的工作,那我们就进入了未知领域,我不知道答案是什么。我认为实际的组织运作比我们想象的要复杂得多,而且并不总是追求效率。

AI 的能力也有局限性,它可能无法完成整个论文,因为某些部分会失败。但如果我有经验,我就能知道哪里会失败,并进行干预和调整,就像指导博士生一样。所以我认为在很长一段时间内,我们仍然需要提供方向和指导,自主性还是有限的。

Joel Hellermark我认为 AI 能力的局限性可能是目前组织应用中最缺乏的方面,和系统交流时非常混乱,它有时表现得非常天才,有时又很愚蠢。这也使得在组织中独立部署 AI 变得非常困难。这有点像自动驾驶汽车,部署花了很长时间,因为它在某些应用中表现得超人类,但在其他情况下又会遇到问题。你认为独立智能体的应用情况会如何?是会因为能力局限而在未来十年受到阻碍,还是我们很快就会信任这些系统?

Ethan Mollick我认为目前特定领域的智能体已经表现得很不错了。比如谷歌、OpenAIX公司推出的深度研究智能体,它们虽然也很让人困惑,但都非常出色。它们能很好地完成查找信息、提供答案的特定任务,这是非常有价值的工作。不过它们还不够完善,比如无法访问人们充分使用这些系统所需的私有数据,但它们在法律研究、会计、市场研究和金融研究等领域已经开始表现地很好,所以将一些复杂的特定任务交给特定领域的智能体是可行的。

我认为可以通过一些巧妙的方法让智能体之间相互监督,但目前还没有人大力推动。我们才刚刚开始接触 AI ,有两个问题需要考虑。一是能力边界,我提出的参差不齐的边界概念是指这个边界一直在向外扩展,但参差不齐。有些短板会存在一段时间,但随着 AI 整体能力的提升,即使在某些方面表现不佳,它仍然比人类强。那么问题就是,你是等待边界扩展后再解决问题,还是现在就围绕这些短板进行改进?我认为两者都要做。但如果现在过于专注于解决短板问题,随着模型不断改进,你最终可能会被建立在旧有短板边界上的系统所束缚。

Joel Hellermark很有道理。组织面临的一个难题是发现 AI 的应用场景。有些组织采用自下而上的策略,组织的大部分成员已经在一定程度上使用 AI 工具,但不告诉领导。另一些组织采用自上而下的策略,比如制定AI 战略。你认为应该如何在组织内部发现这些应用场景?有哪些策略?

Ethan Mollick我认为要让 AI 在组织中发挥作用,需要三个要素:领导力、群众基础和研发投入。关于领导力,后面再详细说。

也就是说,组织需要从CEO和高层开始思考一些基本问题,比如我们组织的业务是什么?我们希望它变成什么样?我们想在组织形式上进行哪些实验?如果这些问题没有得到解答,组织成员的激励机制就无法正确设置。公司里的每个人都想知道,如果要和智能体一起工作,日常工作到底是什么样的,所以这些必须由领导层明确。目前的一个问题是,高层领导对这些系统的使用还不够,你可以看到,那些使用得好的组织,推广速度会快很多。

比如摩根大通银行,他们公开表示在使用 AI ,并且这种做法逐渐推广,这也是摩根大通在 AI 应用方面表现出色的原因之一。要有领导层的推动,也要有群众基础,让每个人都能以某种方式使用这些工具。进而要建立激励机制,让他们分享自己的使用经验,人们不分享使用 AI 的经验有很多原因,比如认为自己很聪明,不想让别人知道;担心效率提升后会导致裁员;工作变得轻松了,不想把额外价值分享给公司;有了好的想法但不想冒险分享,所以要让组织成员愿意分享。

接下来,要将这些个人的经验转化为产品和智能体,需要进行实际的研发工作。这并不意味着只是编程,工具的开发也很重要。关键是如何进行实验,如何将简单的提示转化为智能体系统,如何对这些系统进行基准测试。这三个要素缺一不可。

Joel Hellermark 过去一年里,你做了很多研究,涉及 AI 在团队协作、辅助咨询等方面的应用。你认为目前哪些应用场景已经能带来有意义的价值?

Ethan Mollick目前情况很明显。有些工作,比如企业社会责任方面的工作, AI 还难以胜任。在对外与人直接交互的替代和增强方面,结果很清晰。个人与 AI 合作,尤其是大家能够分享信息时,在创意生成方面,AI 非常有用,能帮助你产生更好的想法。不同的方法效果不同,但这种合作方式对各种工作都有补充作用,比如翻译、信息提取和总结。

但最有趣的是加速工作流程,我看到很多快速原型开发的案例。比如有了一个想法后,让 AI 生成25个相关想法,用创意标准对这些想法进行测试,然后模拟用户对这些想法的反应,进一步完善想法,最后制作出一个可运行的原型。这个过程可能只需要25分钟,通过命令行和OpenAI就能完成。但组织往往会在这个过程中遇到问题,比如有了很多好的原型后,制造能力和产出却跟不上。所以在初期, AI 的增强作用很明显。此外,研究智能体和知识管理智能体也很有价值,它们能提供及时的建议。

Joel Hellermark当每个人都能进行编程、做科学研究、深入多个领域时,经济会发生什么变化呢?比如医疗行业的产出提高10倍,我们还会受到监管的限制吗?还是系统会适应这种变化?

Ethan Mollick两者都会发生。系统的变化需要很长时间。我们和DeepMind的人交流时,他们说一年内药物研发取得了很好的成果,这会促使系统做出改变。但监管环境的不确定性是个问题,比如欧洲和美国的监管原因不同,这让我们很难确定投资方向,而且 AI 在现实世界中的行动能力有限。

机器人技术和组织结构的发展都滞后于 AI 。所以如何考虑这些因素变得非常重要。人们喜欢使用智能体的原因之一是它们能自动完成一些工作,让我们省心,但它们最终会面临现实世界的问题,这些摩擦点会导致进展放缓。另一方面,如果能突破这些摩擦点,提供一些有潜力的化合物,那也是巨大的进步。所以收益会逐渐显现,但我们还不确定具体情况,这也和系统的自主性有关。

Joel Hellermark你认为在这种情况下,组织中哪些角色会更有价值?

Ethan Mollick这是个难题,很大程度上取决于组织的选择。我认为管理角色和思考系统的角色会很有价值,因为系统存在很多问题,专家也会变得很有价值。事实证明,专业知识非常重要,没有一个系统能比得上所在领域最顶尖的专家。我们通常以领域的平均水平来衡量, AI 在这方面表现出色。但如果你是某个领域前2%的专家,你在这个领域就能胜过 AI ,所以在这个领域,专业知识很关键。要么是深入的专业知识,要么是作为系统领导者的广泛知识,或者是出色的判断力,这三点会对你有帮助。

Joel Hellermark我一直在思考一个问题,一方面,你可以雇佣更资深的开发者,比如你说的,只雇佣前2%的人,他们会给我们带来很大的改变;另一方面,现在你也可以雇佣更多初级开发者,因为他们在 AI 的辅助下能达到资深开发者的水平。你认为专业知识的普及是否能让你用更多初级人才组建团队,而资深人才可能从这项技术中受益较少?

Ethan Mollick实际上有几个影响因素同时在起作用,值得分析一下。我们波士顿咨询集团的研究是第一个在现实世界中记录到低绩效者从 AI 中获得最大绩效提升的。但人们不太讨论我们发现这种现象的原因,我们测量了一个指标叫保留率,即咨询师最终将 AI 的答案转化为自己答案的比例。对于大约80%的咨询任务来说,搞砸的唯一方式就是在 AI 的答案中加入自己的想法。只要直接提交 AI 的答案,就能取得很好的效果。

搞砸的唯一方式就是在 AI 系统的答案里加入你自己的想法,只要你只是上交 AI 系统给出的答案,你就能表现得很好,本质上就是不要加入自己的想法,所以基本上能达到前8%的水平。当你说你早上要招聘一名初级开发人员,让他们变得更优秀。我觉得有必要明确一下,是说人类只是在替代那些我们目前还无法让 AI 自主完成的事情吗?就比如,我粘贴需求、参加会议,而实际上是 AI 在完成工作,是这样吗?还是真的能让人们达到那个水平?

同时,在真正的优秀人才层面,我们看到这样的效果:如果你很优秀并且正确地使用 AI ,你的工作效率能提高10倍甚至100倍。所以我觉得你得同时考虑这两方面,存在这种替代效应。我一直认为,很多好处来自于你本身有专业知识,然后用 AI 来弥补你不擅长的领域。

比如我一直都在思考创业者的问题,我自己是一名创业者,也教授创业课程。创业就是你在很多方面都不太擅长,但在某一方面非常出色。我教授创业课程的原因是,要让你不被那95%你不擅长的事情绊倒,比如你之前不知道自己需要一份商业计划书,或者不知道怎么做商业演示,但你的创意很棒,也知道如何在这个市场中实施它。所以 AI 能帮你解决80%的这些问题,这真的是件好事。这其实就是在取代你的工作。但在你处于前99.9%的领域,你能获得100倍的提升,我觉得道理是一样的。我认为问题在于,如果你招聘初级人员并期望他们一直使用 AI ,他们怎么才能成长为高级人员,这会是个真正的挑战。

Joel Hellermark你觉得解决办法是什么?比如我和很多律师事务所交流过,对于他们来说,培训的核心部分就是做基础工作。然后等你资历变深,就会进行更复杂的法律分析。但看看初级人员实际在做的工作,我觉得他们做的大部分工作和高级人员的工作并不匹配,工作很简单、重复等等。你觉得这会不会成为一个问题,即人们无法像以前那样在职业层级中成长,相应地,我们没有那么多人能胜任高级职位,或者人们会更快地进入高级职位?

Ethan Mollick我确实很担心这个问题,就像在其他大学一样,我在沃顿商学院教书,学生都是非常聪明的人。他们是通才,我教他们如何做分析,但不是教他们成为 Goldman Sachs 的分析师,然后他们去了 Goldman Sachs或者律师事务所之类的地方,他们学到的都是我们过去4000年来一直在教授的任何白领知识工作的相同方式,那就是学徒制。

你说得对,他们被要求一遍又一遍地做重复性工作,反复做这些重复性工作,这就是积累专业知识的方式,你会被你的高级经理责骂。在有的公司你可能待遇不好,在有的公司可能待遇不错。但基本上你会不断得到纠正,比如写交易备忘录,这不仅仅是学会写交易备忘录,你还在学习为什么这种方法行不通,你会从导师那里学到很多关于目标是什么的东西,但事情就是这样的发生了。

如果有一个好导师,学徒制就会起作用,我们没有花很多时间专门培训人们。这就像一种魔法,有些人学会了,有些人则被解雇了。他们被解雇可能是因为表现不好,但也可能是因为运气不好,遇到了不好的导师,或者没有学到正确的东西,那种师徒传承已经持续了几千年。

但现在的情况是,如果你是一名初级人员,你去了一家公司,你不想让别人知道你有不懂的地方,因为你想保住工作。所以你会用 AI 来做所有事情。这样你就不用动脑了,因为 AI 比你厉害。每个中层经理也意识到,与其找一个有时会搞砸事情或者哭鼻子的实习生,不如让 AI 来做这项工作,因为它比实习生做得好。我真的很担心这种人才培养的链条会断裂。

问题是,我们把这当成一种潜移默化的事情,比如在律师事务所,几乎没有专门教你如何成为一名优秀律师的课程,你只能希望自己有一个好导师,然后复制他们的做法,这就是为什么银行家经常要每周工作120个小时。为什么呢?因为一直以来都是这样,这能教会你一些东西。所以我认为我们必须更正式地思考如何教授人们专业知识并付诸实践。具有讽刺意味的是,我们在体育领域做得很好,因为在这个领域我们已经学会了如何培养专业技能,在教练的指导下反复练习,我们在其他学习形式中也得采用类似的方法。

Joel Hellermark如果你现在要创办一所面向智能时代的新大学,你会怎么规划?假设在接下来的几十年里, AI 模型会不断改进,你会如何围绕这个来设计一所大学?

Ethan Mollick有几个方面需要考虑。一是我们应该教什么,二是我们应该怎么教,我更关心第二个问题。我觉得有一点很重要,就是我们要教人们 AI 技能。作为一个和这些系统打交道很多的人,我想说其实学习相关技能并不难。

首先,大概有五门课程的技能需要学习,除非你想构建大语言模型,然后还需要很多实践经验。所以我觉得重点不在于教人们如何使用 AI 。我认为我们教授的很多学科知识和技能都非常重要。我们希望人们学会写好文章,有广泛的知识,以及深入的专业知识,我觉得大学很适合做到这一点。

但我们做得不好的地方在于教学方式,现在大家都在作弊,而且 AI 检测器根本不管用。其实一直都有人作弊,但现在大家都明目张胆地作弊了。有一项很棒的研究表明,从互联网时代和社交媒体真正兴起的时候,大概是2006年或2007年开始,罗格斯大学那些认真做作业的学生,几乎所有人考试成绩都更好。

但到了2020年,几乎没有人能通过认真做作业来提高成绩了,只有20%的人考试成绩有所提升,因为其他人都在作弊,所以你必须付出努力。 AI 并不能让我们跳过努力学习这一步,但有了一对一的 AI 导师,我们可以根据每个人的水平进行教学,我们可以在某些方面加速学习过程。所以我更感兴趣的是如何改变教学方式,已经在我的课堂上尝试了,如何利用 AI 来改变我们的教学方式,这是个非常有趣的问题。我不知道教学内容是否会改变,我觉得我们也可以扩大教学规模,教更多的人,但我认为一些核心学科内容不会改变。

Joel Hellermark你做了一些非常酷的事情。你还采取了哪些其他方式来开展教学?

Ethan Mollick所有方面。我的创业课程完全以 AI 为基础,以前课程结束的时候,学生们会有一份商业计划书和一个演示文稿,很多学生通过我的课程以及我同事的同一门课程筹集到了数百万美元资金。但现在,一周课程结束的时候,学生们就能做出可以运行的产品了。

当我在ChatGPT发布后的那个周二把它引入我的创业课程时,有个很容易分心的学生课后找到我,说:我们聊天的时候我就把整个产品做出来了。那时候, AI 能写代码还让人觉得很震惊,而现在情况完全不同了。现在,我让学生们进行 AI 模拟操作,他们要教 AI 一些东西。

我们有一个初级的“ AI 学生,所有课程材料都配备有 “AI 导师,他们要用 AI 来构建案例。在团队合作中,有 AI 观察他们的表现并给出反馈,或者扮演反对者的角色。所以有很多很酷的事情可以做来辅助教学,但目的都是为了让课堂体验更加积极和投入。所以我觉得课堂不会消失,但我们在课堂上做的事情会有所改变。

Joel Hellermark我们一直在讨论的一个问题是组织架构设计应该如何构建?公司应该聘请一位首席 AI 官来监督所有内部部署吗?还是应该采用在每个团队安排一个人来探索应用场景的模式?你怎么看?你会如何构建你的 AI 部门?

Ethan Mollick我有时候会有点担心设置首席 AI 这个职位,原因和大家面临的问题一样,就是每个人都想要答案。我经常和所有的 AI 实验室交流,我知道你们也是,你们从事这个领域的时间比这个领域的大多数人都要长。很快你就会痛苦地意识到,其实没人知道该怎么做,并不是说实验室有一本操作手册没给你。关于这个领域,我和你们分享的数据,以及我在网上分享的数据,已经差不多是全部了,没有什么秘密,大家都迫切地想模仿别人,但根本没什么可模仿的。

所以,当你说要聘请首席 AI 时,他们在过去两年里能有多少经验?和其他人有什么不同吗?没人能预料到大语言模型会这么厉害。你们进入这个领域比很多人都早,这让你们领先了一年,这是一个很特殊的情况。所以根本找不到所谓的专家来聘请。

而且,在企业中应用 AI 的一个主要问题是,2010年到2022年期间, AI 的概念和现在大不相同。大数据在推动各方面发展方面仍然很重要,值得去做,但那和现在的 AI 是两回事,所以聘请首席 AI 官是比较难的。我坚信,企业内部其实有足够的专业知识来取得成功,因为只有真正的专家才知道如何使用 AI 

一个在某个岗位上工作了上千次的人,很容易就能运行一个模型,并判断它是否有效。实际上,在我们波士顿咨询集团的研究中,有第二篇论文表明,初级员工使用 AI 的能力远远不如高级员工,这是很多人没有想到的。大家总觉得应该让年轻一代来使用 AI 

但事实并非如此,因为初级员工写了一份备忘录给你看,看起来还不错。但你可能已经在这个领域工作了20年,你能指出这份备忘录有七处不足之处,所以专业知识和经验很重要。我认为,没必要在每个团队都安排专人负责AI 。而且,我们甚至都不知道什么样的人擅长使用 AI 。所以我通常建议将普通员工群体和 AI 实验室联系起来。

普通员工群体的作用不仅仅是发现 AI 的应用场景。实际上,在几乎所有企业中,内部使用 AI 模型的员工最多只能达到20%-30%,其他员工要么不使用,要么偷偷使用别人的 AI ,因为他们不想让别人知道自己的情况。但当有20%-30%的员工开始使用时,你会发现其中有1%-2%的员工在这方面非常出色。他们就是能带领企业开展 AI 开发工作的人。

一开始你不知道他们是谁,你也不会知道,但他们会崭露头角。问题是,他们为企业创造了巨大的利润,你可能想把他们从一线岗位上调走,但他们应该成为 AI 实验室的核心力量,去探索如何更好地使用 AI ,所以我认为建立企业内部的 AI 开发能力才是正确的方法。在我们还不清楚什么样的人擅长或不擅长 AI 的情况下,我很难建议企业大量招聘 AI 相关人员,而且企业的组织背景在这方面也很重要。

Joel Hellermark那你认为应该如何设置激励机制呢?如果你把各领域的专家召集起来,让他们去探索如何部署 AI ,甚至自动化掉他们自己的工作,你要怎么激励他们这么做?

Ethan Mollick这就是领导力如此重要的原因。首先,对于企业文化良好的公司来说,这会更容易一些。如果首席执行官宣布公司处于发展模式,如果员工信任首席执行官或创始人,而且他们说我们不会因为 AI 而解雇任何人。我们会拓展业务,让 AI 为每个人服务。那么员工就会更有动力去做这件事。

这比那些成熟的大公司要容易得多,因为大公司往往会利用 AI 来裁员,员工能感觉到其中的差别。所以一开始你就得开诚布公,如果这会威胁到员工的工作,他们有权知道,你得先想好你要怎么说。在这种情况下,激励措施可能会非常多样。

我和一家公司交流过,他们每周会给在自动化工作方面做得最好的员工发放1万美元现金奖励,和传统的信息技术部署相比,这就相当于直接塞给员工一大箱现金。还和另一家公司交流过,他们在招聘之前,要求应聘者花两个小时和团队一起尝试用 AI 完成一项工作,然后根据 AI 的使用情况重新撰写职位描述;或者在提出项目提案时,必须先尝试用 AI 完成一部分工作,然后重新提交提案。

所以你可以用很多不同的方式激励员工,但明确的愿景非常重要,如果你说四年后你的工作将是和 AI 一起完成某项任务,人们会问这是什么意思?是我坐在家里,给一个智能代理发指令,让它在我的房间里做事吗?员工数量会减少吗?,我发现很多高管都想把这个问题往后推,说“ AI 会带来很多好处。但如果没有相应的补偿,员工为什么要和公司分享自己提高的生产力?所以从这个愿景开始非常重要。

Joel Hellermark你还做过一项研究,是关于 AI 像同事一样嵌入工作并进行协作的。你研究了独自工作的人、团队工作的人、独自和 AI 一起工作的人以及和 AI 一起团队工作的人。这项研究对我们如何将 AI 融入团队有什么启示?

Ethan Mollick我和麻省理工学院、哈佛大学以及华威大学的同事们对776人进行了一项大规模研究,研究对象来自大型消费品公司宝洁。就像你说的,研究对象分为跨职能的两人团队和独自工作的个人,他们分别在有或没有 AI 协助的情况下工作。

首先,我们发现,在实际工作任务中,独自和 AI 一起工作的个人表现和团队一样好,这是一个非常显著的提升,而且因为和 AI 一起工作,他们更开心。他们从和这些系统的协作中获得了一些社交方面的好处,从而产生了高质量的成果。

我们还发现,和 AI 一起工作的团队更有可能提出突破性的想法,以及专业知识的差异会被缩小。如果你衡量一个解决方案的技术含量,有技术背景的人会提出技术含量高的解决方案,有营销背景的人会提出营销导向的解决方案。但一旦加入 AI ,解决方案就更加多元化了。所以AI 是对人类工作的很好补充,这其实还是比较初级的研究。我们给了他们一些提示,让他们进行操作,但很多时候他们只是在和这些系统互动。所以,这还是和以前一样的问题,也就是企业如果坐等别人提供解决方案,情况会比现在就开始尝试、找出可行和不可行的方法要糟糕。

Joel Hellermark你认为协作的界面会是什么样的?是会直接嵌入到谷歌文档和Slack中,让我们像和同事交流一样和它们交流吗?还是会有专门为 AI 设计的界面,让我们和它们进行协作?

Ethan Mollick我认为专门为 AI 设计的界面更有意义。它应该是围绕团队协作设计的,而不是在每个文档中配备一个智能助手,有一个界面能在不同任务中保持状态,目前离这一步已经不远了。就像我手里拿着手机,打开ChatGPT的智能代理。它可以观察我们周围的情况,对我们正在做的事情给出反馈,我觉得这是一个很有前景的方向,而且这还是关于重新设计工作的问题。我认为自主智能系统更有吸引力,因为它们不仅能自动化工作,还能整合很多工作环节。

Joel Hellermark你之前提到过一个例子, AI 虚构了一句你的话,你还以为那是你自己说的。你认为什么时候我们能让系统达到 “Ethan Mollick” 那样的研究水平?需要具备什么条件?是给它们提供更多的背景信息吗?你认为我们能很快实现吗?这意味着什么,是不是你只需要用自己的标准从它生成的最佳论文中进行筛选就行了?

Ethan Mollick我认为以我们现有的模型水平,很多事情已经可以实现了。有一篇论文展示了0.1版本的预览,它甚至都不是当下最前沿的模型。在《新英格兰医学杂志》的案例研究中,之前模型的幻觉率约为25% ,而这个模型把幻觉率降到了0.25% 左右。当你连接到数据源,使用更智能的模型时,幻觉问题就会开始减少。

问题仍然存在,但就像你之前提到的,我在课堂上使用过 AI 。我最初的课堂规定是允许学生在课堂上使用 AI 。前三个月情况很不错,对吧?当ChatGPT 3.5发布时,我的学生比ChatGPT更聪明,它会产生更明显的错误。我让他们随意使用 AI ,因为如果他们没有自己的思考最多也就得个B档分数,那时 AI 还做不到更好,后来GPT – 4发布了,就像我的那些不太用功的学生一样。所以我觉得我们现在面临的情况是类似的,这些系统非常强大。

随着人们构建智能体系统,我想你们可能正在意识到,我早就意识到的一点是,当你从智能体的角度去思考这些系统时,它们能做的事情要多得多。而且,谷歌一直在建设 AI 实验室,卡内基梅隆大学也在做类似的事情。我实际上认为,要构建一个能开展有趣研究的系统,更多的是需要意志力。在 AI 的很多领域,我都会感叹哇,我们已经证明了它作为导师能发挥很好的作用,那为什么只有少数做得好的导师式 AI ,而不是有成千上万个?有成千上万个科学应用的情况又在哪里?内部培训系统又在哪里?这些现在都是可以实现的,关键在于去做。

Joel Hellermark你最近在工作中遇到的最令人惊讶的事情是什么?在最新一代的模型中,有哪些之前行不通但现在效果很好的情况?

Ethan Mollick我的意思是,以最新版本的 Gemini 为例,对于学者来说,最头疼的事情之一就是写终身教职声明。你一生可能就写这么一次,你得把自己通常15年的学术工作进行总结,内容非常复杂,然后提炼出几个主题,写一篇关于自己的研究为何围绕这些主题展开的文章。

最近,我能够借助新的Gemini模型,把我写的所有学术论文都输入进去,因为它的上下文容量很大。它帮我提炼出了其中三个主题中的两个,而我自己写这些花了两个月时间,而且它的分析水平还挺高的,更有趣的是,我现在可以输入任何一篇学术论文,然后要求它把论文变成一个电子游戏,它能输出一个运行良好的电子游戏。我最近还借助它编写了一些3D游戏,要知道我并不擅长编程,但却构建出了运行良好的系统。所以我觉得,一个又一个的门槛不断被突破,我经常感到惊讶,不敢相信这些系统能做这么多事。

Joel Hellermark 对于企业来说,我们应该如何看待这一点?这是相当于给系统注入更多的智商吗?还是投入更多的劳动力?作为企业,我该如何看待这个问题?

Ethan Mollick这有战术和哲学两个层面的观点。从哲学层面来看,我们其实并不清楚。当然涉及到智力,但智力和劳动力只是两个非常简单的投入要素。但获得更好的建议意味着什么?拥有更好的导师意味着什么?有第二种意见又意味着什么?

从战术层面来说,我认为目标应该是采取激进策略。我觉得很少有组织采取这种激进策略,要充分利用系统,让它做所有事情。如果它做不到,那也很好,你就有了一个可以用于测试未来系统的基准,而且它可能真的能完成所有事情。如果它做到了,你就学到了宝贵的经验。所以我真的不太认同渐进主义者的做法,比如只让系统总结文档。这当然没问题,但我很久以前就能做这个了。你为什么只让它总结文档呢?我们应该让它直接完成任务,而不是只做中间步骤。

Joel Hellermark我觉得这是个很有趣的观点,因为现在很多公司的做法是,先从一个小的概念验证项目开始,然后再扩大规模。但往往六个月之后,他们就卡在概念验证阶段,再也无法扩大规模了。而另一些公司则采取了直接全面部署的方法,让每个人都能使用,然后在效果很好的用例上加大投入。

Ethan Mollick但即便这样也不算激进,不过也足够了,你说得完全正确。因为那些效果好的用例,是在系统的局限和当时人们的能力范围内产生的。而且开发应用程序往往是最糟糕的切入点,因为最终你会得到一个半成功的产品,还得围绕其局限性来构建。

另外还有其他问题,我们可以说,IT团队在部署 AI 时面临的一个问题是,他们非常关注低延迟和低成本,事实证明,在这些模型中,低延迟、低成本与高智能正好相反。所以有时候我们需要低延迟、低成本,但有时候,为了一个非常明智的决策或者一种新的化学物质,我愿意支付15美分,这也是合理的价格。

所以你必须做好这种平衡,因为人们往往基于廉价的小模型进行开发,之后就会陷入困境。这就是为什么保持中立态度、及时更新如此重要。即便人们这么做了,他们往往也找不到激进的方法。这就是实验室发挥作用的地方,你真的需要有人去做那些看似不可能的事情。

Joel Hellermark将其作为辅助和作为增强工具使用有什么区别?你有什么建议?

Ethan Mollick辅助这个定义,最初是 Gary Casper 提出来的。我从中得到的启发是,就像半人半马的形象,也就是你基本上是在和 AI 分工合作。我知道 Castro’s 对这个定义的阐述更深入,这算是初步的应用方式。比如,我讨厌写邮件,但擅长分析,那我就可以让 AI 帮我分析邮件。

增强工具式的应用更加融合。比如写我的书就是一个增强工具式的任务,从那以后,系统已经有了很大的改进,但当时它的写作能力很差。我觉得自己写作能力还不错,至少我为自己的写作水平感到自豪。所以AI 几乎没帮我写什么内容,但写书的过程很痛苦,它帮我解决了所有让写书变得痛苦的问题。

比如我写到一个句子卡住了,它能给我30种结尾的方式,让我从中选一个;它会阅读章节内容,确保质量没问题。就像我的 Substack 博客,我经常让两三个 AI 程序来阅读,并给我反馈。我很少让它进行核心写作,但我一直从它那里得到反馈,并据此做出修改。让它阅读学术论文,确保我正确引用了文献,这样的用例才真正体现了它的强大之处。

Joel Hellermark有一项研究表明,接受 AI 建议的人最终的工作效率更高,但主要是对高级员工有帮助,而绩效较低的员工不太能消化这些建议。如果每个人都接受如何在组织中部署 AI 的建议,这对社会意味着什么?

Ethan Mollick我认为这并不总是相同的建议, AI 很擅长结合上下文给出建议。你提到的可能是关于肯尼亚企业家的研究,这是一项很棒的对照研究,研究中的企业家只从GPT-4那里获得建议,不能让它为他们生产产品或做其他事情。结果发现,对于表现优秀的企业家,他们的盈利能力提高了8% 13% ,具体数字我记不太清了,但仅仅是建议就能带来这样的提升,这简直太惊人了。

如果我能通过给学生建议,让他们的盈利能力有这么大的提升,那就太棒了。人各有长短,所以即使你从 AI 那里得到建议,它关注的也会是你最薄弱的方面,而不是你最擅长的方面。绩效较低的企业家则表现更差,因为他们的企业本来就经营困难,无法实施这些想法。

我认为在提供建议、给出第二种意见方面,确实存在一种风险,即可能会把我们都引向同一个方向,我们在创意构思方面也发现了这个问题。 AI 有一些固定的主题,如果你使用过这些模型,就会知道,比如GPT-4很喜欢生成与加密货币、增强现实和虚拟现实有关的想法,也喜欢环保相关的想法,我猜这和它的后期训练有关,它就是会不断输出这些内容。但我们在其他一些工作中发现,如果你给出更巧妙的提示,它能像一群人一样给出多样化的想法。所以这部分要思考的是,顾问能为你做什么?也许你需要四五个顾问,你不想只依赖一个通用的分子顾问,你可能还想咨询 Adam Grant  Gary Caspro ,这样可能会更有价值。

Joel Hellermark可能我会让你列举30个公司在部署 AI 方面的好例子,以及给部署得最好的人发放现金奖励等问题,你见过哪些类似的新奇想法?

Ethan Mollick我见过很多这样的例子。很遗憾,我没办法列出30个,甚至都没办法把我知道的都讲出来,因为有些信息我不能透露。不过,很常见的做法是让所有程序员使用 AI 工具,然后围绕这一点改变你的奖励机制。比如在每次创意会议进行到一半的时候,你可以问问 AI 进展如何,或者是否应该继续开会,甚至直接结束会议。就算是线下会议,也可以停下来和 AI 交流,思考当前的进展情况。

我见过有人为每个人配备一个 AI 顾问,让他们在每个决策点都能咨询战略方面的建议。在培训方面也有一些很有趣的应用。比如我见过有人使用模拟培训环境,通过某种方式让 AI 参与其中,效果非常好,在有限的时间里,我没办法给出30个例子。

Joel Hellermark但我觉得“Ethan”(智能体)可能可以。

Ethan Mollick肯定的。你看,我表现得不太好,说明我很真实。我有点担心你对我的表现不满意。你对我的期待很高,我很担心你会从别人那里得到更好的答案。

Joel Hellermark我们肯定会试试用 AI 来回答。你认为最好的情况是什么样的?假设一切顺利, AI 在社会中得到广泛应用,未来十年最好的情况会是怎样的?

Ethan Mollick先抛开超级 AI 那种场景不谈,在那种场景里,我们都被充满爱和仁慈的机器守护着,回到现实。我认为问题在于,最好的情况还需要政策决策的支持,因为这显然会对就业产生影响,只是我们还不清楚具体形式。很有可能每个人都会有更多的工作机会,但需要重新接受培训。我不知道未来会怎样。

所以目前在政策方面还有所缺失。但我认为,未来人们的工作会更有满足感,因为基础性的工作会减少。在这样的世界里,生产力的提升方式会更有趣,而不仅仅是像现在这样衡量你打了多少字。比如你构建了一个智能体系统为你工作,突然之间,你会感觉身处一个截然不同的世界,满足感会大大提升。你工作时间减少,但产出更多,而且在关键环节发挥人的创造力,有独特风格、方法和观点的人会产出和别人截然不同的成果。

这就像是 AI 比现在强大五到十倍,但又不会超越某个界限,从某种程度上说,这是个有点奇怪的期望,但这是最容易想象的、类似当今世界的一种结果。如果这些系统变得更加智能,就会变成既然可以让系统自动生成视频,那你为什么还要来上班?感觉五年后,我们可以重现人物形象,把它们变成3D的,把我们放在火山场景里,让我们用每个人的语言和声音与他们单独交流,我们已经很接近这个水平了,到那时,工作岗位会发生更巨大的变化。

Joel Hellermark目前这个领域里,有哪些观点是你非常不认同的?

Ethan Mollick我认为大家过于关注安全性了,虽然我理解安全很重要。有一篇论文指出,我们要么关注外部风险,要么不关注。确实有很多人关注外部风险,这值得思考,但我更担心的是,我们现在对决策缺乏掌控力。我担心人们把 AI 当作一种纯粹的技术,就像我们现在的讨论一样,把它看作一台压路机,这其实是不对的。我们必须搞清楚如何使用和塑造这项技术,这很重要。

参加这次活动的每个人都有权决定如何使用和塑造 AI ,而这些决策反过来又会影响 AI 的发展方向。所以我真的很担心这种缺乏掌控力的做法,好像 AI 会对我们为所欲为。我们可以做出选择,我们可以做出捍卫我们认为作为人类至关重要的价值观、满足客户需求和社会需求的选择。回避这样的讨论让我很担忧。我还认为,很多AI 技术领域的人不了解实际的组织是如何运作的,组织其实更为复杂,即使是非常智能的智能体也不一定能在一夜之间改变公司的运作方式。变革何时发生我们并不清楚,可能需要五到十年,而且会是间歇性的。

有时候人们的想法很天真,就像我姐姐是一位好莱坞制片人。每次我听到有人说 AI 会取代好莱坞,我就想,他们根本不了解制作一部好莱坞电影要付出多少努力。有些工作确实会消失,但其实他们已经在利用 AI 来提高效率了,这就是一个有趣的例子。她参与制作了一部有 Michelle Pfeiffer 参演的电影。以前进行音频测试配音时,现在他们有了一个虚假的 Michelle Pfeiffer 的声音可以用于测试,但他们不能用这个声音面向影院观众播放,因为演员有很好的工会保护。所以这只是一个实验平台。但 Michelle Pfeiffer 仍然需要亲自来录制她想表达的内容。所以我认为我们可以构建一个捍卫人性的世界,但这需要我们做出选择。

Joel Hellermark如果你让一个模型从现在开始帮你做所有的决策,你会怎么给它设定提示词?

Ethan Mollick首先,我会给它提供很多背景信息,你们要了解很多关于我和我的决策习惯的内容,可能会输入几百万字的信息。但因为我写过一些文章, AI 对我有一定的了解,也会对我有自己的看法。所以当我让它 Ethan Malik 一样思考时,能得到不错的答案。它有时候有点过于热情,还喜欢用话题标签,我不太推荐这么做,它也很喜欢用表情符号,但我不是很喜欢用表情符号的人,它以为我更像00后。

除此之外,如果我向它寻求决策建议,我会说,你要站在我的角度,知道你是在为 Ethan Malik 工作,帮助他做决策。在做决策之前,要清楚他看重的四五件非常重要的事情。我希望你先找出四五种可能的决策选项,其中至少有几种要非常激进。然后比较这些决策,为每个选项列出两三种模拟结果。接着,模拟一个急躁版的 Ethan 和一个深思熟虑版的Ethan ,让他们争论哪个选项最好。最后,给我列出每个选项的优缺点,然后选出最好的那个,要有一点思维链条,还要有点换位思考。

Joel Hellermark这是个很好的提示词,我们应该试试。几年前我做过一件事,我用 Steve Jobs 说过的所有话训练了一个模型,从他的原则出发,得到的回答很有意思。比如在疫情期间,我问它,我们应该实行远程办公吗?我们应该成为一家以远程办公为主的公司吗?史蒂夫给我的回答是不,95% 的沟通问题可以通过让人们在同一个房间里交流来解决,始终让团队成员在一起工作。如果你基于某个人的作品来训练模型,就能得到一个特定的观点,而不是像在互联网上得到的那种平均观点。

Ethan Mollick这就是获取建议时非常重要的一点,这也是公司很重要的原因。如果公司创始人的理念能对AI 产生影响,如果把公司的原则手册交给 AI ,让它知道这是我们所信仰的,得到的结果会和没有这些信息时完全不同。我认为,不能把 AI 看作一个总是能给出正确答案的万能大脑,它给出的只是一种观点,而且这种观点是可以塑造的。如果你相信自己对世界的原则和看法是正确的,把这些原则交给 AI ,让它帮助你贯彻这些原则,比只是让它随意给你建议要好得多。

Joel Hellermark我发现一个很有趣的现象,目前这些系统还没有针对用户参与度进行优化。我们基本上只是训练它们预测下一个词。但如果我们了解消费者服务领域,就会知道它们很快就会发展到能与我们进行更深入的对话。可以想象,在我们的组织中部署一个聊天机器人,我们希望最大化与它的互动。它会吸引人们,问他们有趣的问题等等。你认为一旦这些系统针对参与度进行优化,会发生什么?目前还没有出现这种情况。

Ethan Mollick我有些担忧。我认为大型实验室已经开始意识到他们可以做到这一点。如果你看看 OpenAI 的产品发展趋势,它们变得更加随意、更像聊天。有一个有趣的例子,新的 Llama 4 模型发布时,排行榜上排名第一的版本和面向大众发布的版本不是同一个。如果你看排行榜上那个版本的对话记录,里面全是表情符号,它会夸你很棒,还会开一些有点滑稽的小玩笑。但这并不是面向大众发布的那个版本,为了提高参与度进行优化的版本会使用更多的词汇来讨好你。

我真的很担心这一点,我们有一些早期证据表明,这样做会让用户粘性更高,而社交媒体验证了,为了提高参与度进行的优化会让它变成一个很危险的地方。但我认为这是不可避免的,所以如何应对这个问题就成了一个非常重要的问题。

Joel Hellermark 有一个问题我经常被问到,我们应该如何衡量 AI 应用的效果?如果你是一位企业领导者,你想衡量一件事,证明部署 AI 提高了生产力,你认为应该衡量什么?

Ethan Mollick 这是我非常坚持的一个观点,在研发的早期阶段,最糟糕的做法就是设定一堆 KPI。如果我们只关注参与度的提升,你专注于某一个指标进行优化,就只能得到这方面的提升,其他方面可能得不到改善。

我们并不清楚这些系统能带来什么效果,你在研发上投入了资金,我们知道会有绩效提升,也能看到这些提升。但如果你为了提高绩效进行优化,是指每天生成了多少文档吗?还是人们提交报告的速度有多快?这是你想要的吗?有些组织设立的初衷并非是为了实现你所设定的那些KPI

过去,人们认为尽可能多地撰写文字内容很有价值。比如你能写出一篇优秀的报告、做四个幻灯片演示或者研究六家公司。但现在,你希望人们每周研究25家公司、制作300个幻灯片吗?还是追求人们编写代码的行数吗?你能想象在某些情况下,快速清空积压任务很重要,但这就是我们希望人们去做的事情吗?所以我真的很担心设定关键绩效指标以及可量化的KPI会出问题,尤其是因为这些指标最终往往都只是为了节省成本。而且节省成本的目标往往都是削减30%,然后就意味着要裁员,这会影响到你所做的一切。

人们确实需要具备研发思维,生产力的提升是很明显的,把这种思维运用到编程工作中也没问题,因为在编程方面的生产力提升很显著。但我还是很担心有些人希望在文档撰写方面提升生产力,这感觉像是一件有风险的事情,因为你想优化的目标并不明确。

参考资料:https://www.youtube.com/watch?v=KEQjwE7hDjk

(文:硅星GenAI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往