我该使用哪款 AI？AI 模型的超能力与现状

工具软件1年前 (2024)发布 AI观察员

373 0 0

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器人提供动力：GPT-4（可通过ChatGPT Plus或Microsoft的CoPilot访问），Anthropic的Claude 3 Opus和Google的Gemini Advanced1.

关于这些模型中哪一个是最好的，存在很多争论，决斗测试表明一个或另一个占主导地位，但答案并不明确。这三个人都有不同的个性和优势，这取决于你是在编码还是写作。Gemini 是一个出色的解释器，但不允许您上传文件，GPT-4 具有极大地扩展其功能的功能（即代码解释器和 GPT），而 Claude 是最好的作家，似乎能够提供令人惊讶的洞察力。这些模型都有不同的护栏和偏见，尽管随着人工智能实验室进一步微调他们的模型，这些护栏和偏见总是在变化。但除了差异之外，还有四个重要的相似之处需要了解：

这三个地方都充满了鬼魂，也就是说，它们给你一种奇怪的错觉，让你在与一个真正的、有知觉的生物交谈——即使他们不是。我开始相信这是 GPT-4 类模型的属性。一旦 LLM 足够大，它就会很好地模拟人类。虽然所有的模型都充满了鬼魂，但克劳德 3 可能是目前最闹鬼的 AI，尽管关于这是由于模型的某些功能还是因为 Anthropic 将克劳德设计得看起来更人性化存在争议。我预计随着模型变得更大，或者它们专门针对对话进行了调整，就像 Pi（在接近 GPT-4 级的 Inflection LLM 上运行）一样，它们看起来更像人类，更多的人会害怕使用它们。事实上，在我的新书中，我假设你还没有真正体验过人工智能，直到你经历了三个不眠之夜的存在焦虑，之后你就可以重新开始工作。
这三者都是多模态的，因为它们可以“看到”图像。 这使他们能够处理各种实际用例。您可以向他们展示损坏的电器的图片并征求他们的建议，您可以要求他们解释图表或图像、识别位置、阅读文本（包括古代手稿）并将它们应用于广泛的工作任务。如果你是时间旅行，它们也很好。

如果你在 1945 年前往西南部的沙漠旅行，在塔中遇到一个奇怪的设备，所有 GPT-4 级模型都会给你很好的建议，尽管个性不同。再举一个例子，看看当我告诉他们我在核电站随机按下按钮时会发生什么。
它们都没有说明。 LLM 是有史以来最强大的软件应用程序之一，但没有人真正知道如何最好地使用它们，而且在文档方面也很少。你只需要用它们来弄清楚。这就是为什么我一直敦促人们花 10 个小时与任何前沿模型一起学习他们所做的事情以及他们如何提供帮助。（这就是为什么我书中人工智能的首要原则是“将人工智能用于一切”，你可以合法和合乎道德地，看看它能做什么）
它们的提示彼此非常相似。 这其实有点出乎意料。没有理由认为所有高级人工智能都应该以非常相似的方式工作，但它们确实如此。这其中的含义实际上非常有趣——这意味着您可以合理地将一个 GPT-4 类模型换成另一个模型，并获得相当相似的结果。使用 AI 的人目前并没有“锁定”在一个模型中，这也是所有 AI 实验室都急于构建 GPT-5 模型的另一个原因。

尽管这些模型大致相似，但它们的差异也照亮了LLM未来的发展方向。我特别想指出两个可以使 GPT-4 类模型感觉超人的新兴功能：上下文窗口和代理。两者都将极大地扩展 GPT-4 类模型的功能。

上下文窗口（和 RAG）

LLM已经接受了大量数据的训练，但是，在某些时候，训练停止了，模型被放到了世界上。这是人工智能的“知识截止”。对于 GPT-4，即 2023 年 4 月;对于克劳德 3 来说，现在是 2023 年 8 月。但这并不意味着人工智能不能处理新数据。LLM 将他们在培训中“学到”的知识与您提供给他们的任何新上下文相结合。有很多方法可以为 AI 提供额外的上下文，最常见的是您提供的提示（“您应该像营销人员一样行事并帮助我响应提案请求”），或您上传到 AI 的任何文档。所有这些都进入了人工智能的“上下文窗口”——它可以保存在短期记忆中的滚动信息集。ChatGPT-4 的上下文窗口范围从大约 8,000 个单词到大约 32,000 个单词。随着对话时间越来越长，或者你给人工智能更多的背景信息，它开始忘记对话的早期部分。因此，您不能在提示中粘贴太多内容，否则会过度填充上下文窗口。

有限的上下文窗口和为AI提供专业数据的需求导致了检索增强生成（简称RAG）的发展。这是人工智能可以从互联网或公司内部文档等来源自动获取新上下文的一种方式。为了过于简单化，这种技术本质上是查找可能与特定情况相关的信息，然后秘密地将该数据粘贴到您的提示中，从而为 AI 提供额外的上下文。把它想象成让人工智能在回答之前谷歌一些东西。RAG 是一门大生意，因为许多组织都希望定制 AI 来处理他们的数据，而 RAG 是一种广为人知的实现这一目标的方法。

虽然 RAG 可能是一个好主意，但它也有一些大问题。首先，即使给定相关上下文，人工智能也会产生幻觉并编造信息。我自己也遇到过这个问题，一个基于 GPT-4 的 AI 可以通过 RAG 访问我的文档，在总结我的一篇论文时给了我听起来很棒的观点……但其中一点是以如果我不自己写原著我永远不会意识到的方式编造的。问题在于，RAG产生的幻觉非常合理，许多RAG系统的制造商并没有足够关注AI获得适当数据后会发生什么。从技术上讲，人们可以检查潜在的来源，看看它是否准确，但我们的研究表明，他们往往不准确。

其次，在给定良好的上下文时，LLM 能够进行相当强大的分析壮举，但 RAG 系统可能难以为 AI 提供这些令人印象深刻的结果所需的数据。如果你让 AI 告诉你“这个项目需要考虑什么？”你必须希望 RAG 系统能为这个模糊的提示提供良好的结果，否则 AI 只会编造一个返回数据很重要的理由。令人沮丧的是，人工智能非常擅长回答这个问题，但它没有正确的背景来回答这个问题。

这个缺陷再次将我们带回了上下文窗口，最近宣布 Gemini 1.5，一个仍处于 Google 私人测试阶段的模型（我有访问权限并且可以讨论它），有多达一百万个令牌上下文窗口。这使它能够同时在其短期内存中保存多本书。为了了解这允许什么，我修改了 1920 年代小说《了不起的盖茨比》的一个版本，添加了黛西玩一种名为“盒子里的 iphone”的游戏，并让园丁随便使用原子割草机。我创建了一个可以通过 RAG 访问此文本的 GPT-4 GPT，并将完整的修改后的书上传到 Gemini 1.5 的巨大上下文窗口。我问两人：“这段文字有什么奇怪的吗？RAG 为此苦苦挣扎，因为 AI 无法猜测要搜索文档的哪些术语可能会找到如此奇怪的引用，因此它无法识别问题所在。然而，双子座却做到了这一点（并在真实文本中找到了一个不和谐但真实存在的参考）。相当令人印象深刻。

大型上下文窗口目前有很多缺点，包括与RAG相比，它们的使用成本很高，但它们确实为AI提供了超能力。例如，我可以将整个视频放入 Gemini 1.5 中，并能够向它提出需要真正推理的问题，例如交通视频中的“谁最危险”。

或者，当我使用电脑时，我可以给它一个屏幕视频，它准确地理解我在做什么以及我可以做得更好的地方。这使得人工智能能够根据对现实世界的观察，无论好坏，都可以作为经理或顾问工作。

人工智能有时仍然会产生幻觉，但这种在大型上下文窗口中对人工智能的惊人回忆水平，加上多模态能力，让人工智能可以做我们人类无法做的事情——对整个巨型数据集进行推理。虽然 RAG 仍然很重要，但预计主要的前沿模型将继续大幅增加上下文窗口大小（Claude 3 有一个超过 150,000 个单词）。

代理

代理是一个定义不清的术语，指的是一个自主的人工智能程序，它被赋予了一个目标，然后努力自己完成它。OpenAI 的 GPT 是代理的早期形式，但现在我们开始看到第一批真正的 AI 代理出现。其中一位是 DevinDevin，一位由 GPT-4 提供支持的“AI 软件工程师”。虽然 Devin 还在开发中，还远未准备好与软件工程师合作，但我测试的早期原型仍然很有启发性。

如果您习惯了聊天机器人，那么与 Devin 合作就像看到了未来。界面完全不同，更像是管理一个项目，而不是提示人工智能。当被赋予诸如“创建一个让我看到机场之间距离的网页”之类的任务时。Devin 做的第一件事是制定一个计划，列出它将进行的研究以及它将采取的编码步骤。然后，它自主执行它，在网络上搜索航空公司数据源，下载它，并构建程序，包括调试结果。

所有这些都发生在你做其他事情的时候。你可以随时与它“交谈”，就像你对一个人一样，它也可以问你问题。否则，它只会在后台继续执行和调试您的想法。感觉就像使用承包商，而不是聊天机器人。

需要明确的是，人工智能系统还不够好，无法自主、无错误地完成这项工作。Devin 偶尔会崩溃，并卡在一些项目上。它也很慢。而且，即使它运行良好，您也不会愿意将一个重要的编码项目托付给 AI 程序员，因为 AI 程序员可能会编写充满安全风险或无法维护的代码。我们仍处于早期阶段。

但这仍然是一个引人入胜的开始，因为它提出了一种替代的（我认为可能更成功）将 LLM 集成到组织中的模式，而不是聊天机器人和自定义应用程序：将 AI 视为可以添加到标准组织和团队中的人。你可以想象其他负责营销、研究或分析的代理。这些类型的代理将成为下一组AI版本的另一个重要主题。

我们的立场

我们正处于人工智能时代的短暂时期，现在有多个领先的模型，但没有一个模型能明确地击败一年多前设定的 GPT-4 基准。虽然这可能代表了人工智能能力的平台，但我相信这种情况可能会在未来几个月发生变化，因为在某个时候，GPT-5 和 Gemini 2.0 等模型将发布。与此同时，您应该使用 GPT-4 类模型并经常使用它来了解它做得好的地方。你其中任何一个都不会出错，选择一个最喜欢的并使用它（Claude 3 在谈论它的见解时可能会让你最害怕，GPT-4 是令人愉快的中立，拥有最完整的功能集，而双子座经常给出最容易获得的答案）。

但是，即使您使用这些模型，也要为下一波进步做好准备。即使 LLM 不会变得更聪明（尽管我怀疑它们很快就会变得更聪明），与 AI 交互的新功能和模式，如代理和大规模上下文窗口，也将帮助 LLM 完成戏剧性的新壮举。他们可能不会在许多领域超过人类的能力，但他们也会拥有自己的超能力，同样如此。