皮查伊：解析谷歌史上最强大模型Gemini-每日必读-

12月7日消息，美国当地时间周三，谷歌发布了其新一代人工智能模型Gemini。Gemini反映了谷歌内部多年来在首席执行官桑达尔·皮查伊（Sundar Pichai）的监督和推动下所做的努力。

此前负责Chrome和安卓业务的皮查伊是出了名的产品迷。2016年，他在担任首席执行官后的首封年度创始人信函中预测：“我们将从移动优先转向人工智能优先的世界。”从那以后的几年里，皮查伊就开始将人工智能技术逐渐融入到谷歌的所有产品中，从安卓设备一直到云计算。

尽管如此，谷歌最近的风头逐渐被OpenAI抢走，后者于去年推出的DALL-E和GPT-3.5，以及今年推出的GPT-4，主导了整个人工智能行业，并引发了初创公司和科技巨头之间的激烈竞争。

Gemini现在是这场竞争的最新加入者。该系统由谷歌DeepMind领导，这是一个由德米斯·哈萨比斯（Demis Hassabis）领导的新整合部门。现在，我们已经可以在谷歌聊天机器人Bard中体验Gemini，它将在2024年整合到谷歌的产品线中。

在Gemini发布前夕，《麻省理工学院技术评论》杂志在谷歌位于加州山景城的办公室采访了皮查伊，讨论了该模型对谷歌、其产品、人工智能和整个社会的意义。

以下为专访内容：

问：为什么Gemini如此令人兴奋？你能告诉我你对人工智能的总体看法吗？它的力量，它的用处，它在你们所有产品中的发展方向？

皮查伊：Gemini令人兴奋的一个特别之处在于，它从一开始就是一个原生的多模式模型。就像人类一样，它不仅仅是在文本上学习，还可以通过视频、音频和代码学习。因此，这个模型天生就能力更强，我认为这将帮助我们梳理出更新的功能，并为该领域的进步做出贡献。这太令人兴奋了。

另一个让人觉得兴奋的地方是，Gemini在32个主要基准测试中，有30个都是表现最好的，尤其是在多模式基准测试中。在MMLU（大规模多任务语言理解）测试中，它显示了更大的进步。我个人认为，作为领先基准之一的MMLU，Gemini突破了90%的门槛，这是一个重大的里程碑。两年前的水平是30%，随后是40%。由此可以看出，这个领域取得了多大的进步。在57项测试中，Gemini的表现在89%的时候相当于人类专家。这是第一个跨越这个门槛的模型。

我也感到很兴奋，因为Gemini终于进入了我们的产品。它将对开发者开放。这是一个平台。人工智能是一个深刻的平台变革，比网络或移动变革更大。因此，从那一刻起，这对我们来说代表着迈出了一大步。

问：让我们从这些基准开始。Gemini似乎在几乎所有测试方面都领先于GPT-4，但并不是遥遥领先。而GPT-4似乎是一个很大的飞跃。我们是否开始在这些大语言模型技术所能做到的事情上趋于停滞，或者你认为我们将继续拥有巨大的增长空间？

皮查伊：首先，展望未来，我们确实看到了很大的增长空间。有些基准已经很高了。你必须意识到，当你试图从85%开始突破的时候，你已经处于曲线的边缘。虽然看起来不是很多，但那的确代表正在取得进展。我们还需要更新的基准测试，这也是我们研究MMLU多模式基准的部分原因。对于其中一些新的基准，目前的技术水平仍然要低得多，未来还有很大进步空间。比例定律仍然有效：当我们把模型做大的时候，就会有更多的进展。当我把它放在整体上看时，我真的觉得我们才刚刚开始。

问：我很感兴趣的是你认为Gemini的关键突破是什么，以及它们将被如何应用？

皮查伊：人们很难想象将会发生什么样的飞跃。我们正在提供应用程序开发接口（API），人们会以非常深刻的方式去体验它。我认为多模式基准将大有发展。随着我们教会这些模型更多地进行推理，将会有越来越大的突破，而且更深层次的突破还在后头。

解决这个问题的一种方法是Gemini Pro，它在基准测试中表现非常好。但当我们把它放进Bard时，我可以作为一个用户感受到这一点。我们一直在测试它，所有类别的好评率都有相当大的提升。为此，我们称它为我们迄今最大的升级之一。当我们同时进行并行评估时，它确实显示出了优异的表现。所以你让这些更好的模型在基准上得到改进，它会取得进步。我们会继续训练，然后继续学习。

但我迫不及待地想把Gemini应用到我们的产品中。这些模型功能非常强大。在接下来的几个月里，真正设计产品体验以利用所有模型所拥有的东西将是令人兴奋的。

问：Gemini几乎在所有方面都胜过GPT-4，但只是领先了一点点？我想知道你们从GPT-4的发布中学到了什么？你学到了什么？在这段时间内，哪些方法发生了变化？

皮查伊：至少在我看来，这与零和游戏相去甚远。想想看，向人工智能的转变是多么深刻，我们还处于早期阶段，前方的世界充满机遇。

但对于你的具体问题，这是一个我们都在快速进步的领域。我们发表了很多文章，看看像GPT-4这样的模型在现实世界中是如何工作的。我们从中吸取了教训。安全是一个重要的领域。所以在Gemini项目中，我们已经学习并改进了一些安全技术，这些技术是基于模型在现实世界中的运作方式改进的。它表明了微调等各种事情的重要性。我们在Med-PaLM 2中展示的一件事是，采用一个像PaLM这样的模型，对它进行微调，以适应特定的领域，显示它可以胜过最先进的模型。这就是我们学习微调力量的一种方式。

当我们研究Gemini的时候，这其中的很多经验都被用到了。我们花更多时间研发Gemini Ultra（更先进的Gemini将于明年上市）的部分原因是为了确保我们对其进行了严格的安全测试。但我们也在对它进行微调，以真正梳理它的功能。

问：当你看到这些模型被发布出来，人们开始在现实世界中测试它们时，发现它们会产生幻觉，或者会透露某些模型训练的私人数据。我想知道，考虑到其所使用的数据，如果这是不可避免的，那么这在技术中有多少是固有的。如果这是不可避免的，你会尝试做哪些事情来限制它？

皮查伊：你是对的。这些都是活跃的研究领域。事实上，我们刚刚发表了一篇论文，展示了这些模型如何通过一系列提示来泄漏训练数据。幻觉还不是一个可以解决的问题，但我认为我们都在取得进展，只是还有更多的工作要做。我们需要克服一些基本的限制。举个例子，如果你用Gemini Ultra，我们正在积极地将这些模型与外部第三方合作，他们是这些方面的专家。

在多模式等领域，我们想要更大胆，我们想要负起责任。我们将更加小心多模式模型的推出，因为错误用例的可能性更高。但你是对的，它仍然是一项正在开发中的技术，它们不会对所有事情都有意义，在搜索中，我们会更加小心地考虑如何使用它，何时使用，在哪里使用，以及何时触发它。它们有很多惊人的能力，但也有明显的缺点。这是摆在我们所有人面前需要解决的艰巨挑战。

但未来的人工智能系统可能与我们今天拥有的不一样，这就像有人认为你不可能把电脑装进口袋一样。同样地，看着这些系统，说你无法再设计出更好的系统，我不同意这种观点。已经有许多研究探索正在进行中，思考如何解决这些问题。

问：你认为人工智能将带来深刻的变革。在最近的一些转变中，比如向移动设备的转变，它并不一定会提高生产率，这在很长一段时间内，生产率一直保持未变。还有一种观点甚至认为，它甚至可能加剧了收入不平等。谷歌正在做什么样的工作来确保这种转变对社会更有益?

皮查伊：这是个非常重要的问题。我从几个层面上思考这个问题。在谷歌，我们一直关注的一件事是：我们如何让技术尽可能广泛地使用？我认为，即使是在移动领域，我们利用安卓做了很多工作，但仍有数亿人依然无法使用手机。我们正在努力推出一款价格合理的智能手机，价格可能低于50美元。

所以，让人工智能对每个人都有帮助是我考虑的重点。你试着让尽可能多的人接触到你。我认为这是其中的一部分。

我们正在深入思考如何将人工智能应用到对人们有益的用例中。例如，我们早期做洪水预报的原因是因为我们意识到，我们可以探测到模式，并且做得很好。我们用它来翻译100种语言。我们现在确实在尝试用不同的语言提供内容，否则你将无法访问这些内容。

这并不能解决你说的所有问题。但要慎重考虑，何时何地你将专注于解决什么样的问题。以AlphaFold这样的领域为例。我们为世界各地的病毒提供了一个开放的数据库。但是，谁会最先使用它？人工智能不会神奇地让某些更困难的问题变得更好，比如不平等，还是它可能会加剧这种情况？

重要的是，你要确保每个人都能使用技术。你在早期开发它，让人们接触到它，参与到对话中，这样社会就可以帮助测试它，并适应它。

在这项技术上，我们肯定比其他公司参与得更早。你知道，最近我们参加了英国人工智能安全论坛，并在美国与国会和政府合作，我们正在尝试建立更多的公私合作伙伴关系，更早地吸引非营利机构和学术机构参与进来。至于对就业等领域的影响，还需要深入研究，但我确实认为会有惊喜。

我可以举很多例子来说明手机带来的好处，我认为人工智能技术也是如此。我们已经在糖尿病视网膜病变等领域展示了这一点，毕竟世界上许多地方没有足够的医生来检测这种疾病。就像我觉得让世界各地的人们都能使用谷歌搜索一样，我认为这是扩大人工智能使用范围的一种方式。

问：有些事情显然会帮助人们更有效率。编程就是一个很好的例子。然而，这项技术的普及正在威胁就业。即使你不能为社会提供所有的答案，一家公司也可以推出一款能够改变世界并产生深远影响的产品。

皮查伊：我们从未提供面部识别API，但其他人开发了API，技术正在向前发展。因此，它并非掌握在任何一家公司手中。我认为答案要复杂得多。社会也可能被甩在后面。如果你不采用这些技术，它可能会影响你的经济竞争力。你可能会失去更多的工作。

我认为正确的答案是负责任地部署技术，并取得进步，思考它可能造成更严重伤害的领域，并努力减轻它。同时，也将会出现新的工作类型。如果你看一下过去的五六十年，麻省理工学院的经济学家们的研究表明，大多数新创造的就业机会都是在自那以后出现的新领域。

将会有新的工作机会出现，会有更好的工作，人们将会被从一些重复性的工作中解放出来，你可以更有创造性地表达自己。你可以是医生，可以是放射科医生，也可以是程序员。你花在日常任务上的时间与思考的时间，所有这些都可以改变，让工作变得更有意义。还有些工作岗位可能会被取代。那么，作为一个社会，你如何再培训，重新培训人们，创造机会？

问：去年，人们在看待人工智能的方式上出现了哲学分歧。你可以支持安全第一，或者商业用例优先，你可以支持加速论者，也可以是末日论者。你所处的位置是，你必须把所有这些哲学联系起来，把它们结合起来。我想知道，你个人是如何看待谷歌把这些兴趣联系起来的，毕竟谷歌将成为这个领域的领导者，进入一个新世界。

皮查伊：我是一个技术乐观主义者。基于我的个人生活，我一直对人和人性抱有信念。所以，总的来说，我认为人类将利用技术为自己造福。所以我一直是个乐观主义者。你说得对，像人工智能这样强大的技术有二元性。

这意味着，有时我们会大胆地向前迈进，因为我认为我们可以推动最先进的技术。例如，如果人工智能可以帮助我们解决癌症或气候变化等问题，你会想尽一切办法让它快速发展。但你肯定需要社会制定框架来适应，无论是造假还是取代工作等等。这将成为一个前沿领域，与气候变化没有什么不同。这将是我们所有人在未来十年努力解决的最大问题之一。

问：另一个悬而未决的问题是围绕人工智能的法律法规。有关于合理使用的问题，有关于能否保护版权的问题。对于知识产权来说，这似乎将是一件大事。你如何告诉那些使用你产品的人，让他们有一种安全感，他们所做的事情不会让他们被起诉?

皮查伊：并不是所有的问题都有简单的答案。在人工智能出现之前，当我们开发搜索、YouTube等产品时，我们一直在努力实现正确的价值交换。人工智能也是如此。我们肯定会专注于确保我们可以根据法律允许的数据进行培训，让人们有机会选择退出。还有一个层面是关于什么是合理使用。为原创内容的创造者创造价值是很重要的，这些都是重要的领域。互联网就是一个例子，或者当电子商务开始时：你如何在电子商务和常规商务之间划清界限？

随着时间的推移，会有新的法律框架出现，这就是我对这个领域发展的看法。但与此同时，我们将努力遵守法律，并确保我们今天也与许多内容提供商保持深厚的关系。有一些领域存在争议，但我们正在努力解决这些问题。我们必须创造一个双赢的生态系统，让所有这些都能长期发挥作用。

问：当下人们对网络的担忧很多集中于搜索的未来。当你有一种技术可以根据网络上的信息为你回答问题时，有人就会担心人们可能不再需要访问这些网站了。这似乎也会对谷歌产生影响。我想知道你是否在考虑你自己的生意？

皮查伊：我们在搜索方面的一个独特价值主张是，我们帮助用户发现和学习新事物，并找到答案，但始终着眼于与他们分享网络上存在的丰富、多样性观点。这也是我们开发产品的一个重要原则。我不认为人们在搜索时总会说：“帮我回答就好了。”也许有一两个问题是你想要的，但即使你回来了，你会学到更多，甚至在这个过程中，你会走得更深入。我们总是想要确保我们做的是正确的，我认为这一点不会改变。重要的是我们要保持平衡。

同样，如果你深入地传递价值，你所传递的东西就会有商业价值。从台式机到移动设备，我们都有类似的问题，这对我们来说并不新鲜。基于我们所看到的一切以及用户对高质量广告的反应，我感到很放心。YouTube就是一个很好的例子，我们开发了订阅模式。这也很有效。

问：当这些产品开始真正进入市场并开始互动时，你认为明年人们的体验会发生怎样的变化？

皮查伊：我想从现在开始的未来一年，任何开始使用Google Docs的人都会期待一些不同的东西。如果你把它给他们，然后把它们放回到我们在2022年拥有的Google Docs版本中，他们会发现其已经过时了。这就像，对我的孩子来说，如果Google Docs没有拼写检查，他们基本上会认为它出问题了。我们可能还记得在拼写检查之前使用这些产品是什么感觉。但与其他公司相比，我们在搜索中融入了如此多的人工智能，人们已经认为这些自动功能是理所当然的。这是我多年来学到的一件事，让他们认为这是理所当然的。

就人们可以做的事情而言，随着我们开发多模式能力，人们将能够以一种他们以前无法做到的方式完成更复杂的任务。而且将会有真正的用例，它们的功能要强大得多。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

皮查伊：解析谷歌史上最强大模型Gemini

下一篇