GPT-4 比 ChatGPT 更大更好——但 OpenAI 没有说明原因

工具软件3年前 (2023)发布 AI观察员

604 0 0

点击进入：ChatGPT工具插件导航大全

OpenAI 终于推出了GPT-4，这是一种传闻去年大部分时间都在开发中的下一代大型语言模型。这家总部位于旧金山的公司的最后一次出人意料的成功是ChatGPT，这一直是一个难以遵循的行为，但OpenAI使 GPT-4 变得更大更好。

然而，OpenAI 不会说更大和为什么更好。GPT-4 是该公司发布过的最机密的版本，标志着其从非营利性研究实验室全面转变为营利性科技公司。

OpenAI 的首席科学家 Ilya Sutskever 在公告发布一个小时后通过视频通话与 GPT-4 团队成员交谈时说：“你知道，我们目前无法对此发表评论。” “那里的竞争非常激烈。”

GPT-4 是一种多模态大型语言模型，这意味着它可以响应文本和图像。给它一张你冰箱里的东西的照片，然后问它你能做什么，GPT-4 就会尝试使用图片中的原料来制作食谱。它也很擅长解释笑话，Sutskever 说：“如果你给它看一个表情包，它就能告诉你它为什么好笑。”

注册到候补名单的用户和高级付费 ChatGPT Plus 的订户将可以有限的纯文本容量访问 GPT-4。

“在许多方面的持续改进是显着的，”艾伦人工智能研究所的 Oren Etzioni 说。“GPT-4 现在是评估所有基础模型的标准。”

“在过去的几年里，一个好的多模式模型一直是许多大型技术实验室的圣杯，”开源大型语言模型 BLOOM 背后的人工智能初创公司 Hugging Face 的联合创始人 Thomas Wolf说。“但它仍然难以捉摸。”

从理论上讲，结合文本和图像可以让多模态模型更好地理解世界。“它可能能够解决语言模型的传统弱点，比如空间推理，”Wolf 说。

目前尚不清楚 GPT-4 是否如此。OpenAI 的新模型似乎比 ChatGPT 更擅长一些基本推理，解决简单的难题，例如总结以相同字母开头的单词中的文本块。在我的通话演示中，我看到 GPT-4 使用以 g 开头的词总结了 OpenAI 网站上的公告简介：“GPT-4，突破性的代际增长，获得更高的成绩。护栏、指导和收获。巨大的、开创性的、具有全球天赋的。” 在另一个演示中，GPT-4 接受了一份关于税收的文件并回答了有关它的问题，并给出了回答的理由。

它还在人体测试中优于 ChatGPT，包括 Uniform Bar Exam（其中 GPT-4 排名第 90 个百分位，ChatGPT 排名第 10 个）和生物奥林匹克竞赛（其中 GPT-4 排名第 99 个百分位，ChatGPT 排名第 31 个） ). “令人兴奋的是，现在开始根据人类自己使用的相同基准进行评估，”Wolf 说。但他补充说，在没有看到技术细节的情况下，很难判断这些结果到底有多令人印象深刻。

根据 OpenAI 的说法，GPT-4 比基于 GPT-3.5 的 ChatGPT 表现更好，ChatGPT 是该公司先前技术的一个版本——因为它是一个更大的模型，具有更多的参数（神经网络中的值在训练过程中得到调整） . 这遵循了该公司在其之前的模型中发现的一个重要趋势。GPT-3 优于 GPT-2，因为它比 GPT-2 大 100 倍以上，参数为 1750 亿个，而 GPT-2 为 15 亿个。“这个基本公式多年来并没有真正改变多少，”GPT-4 的开发者之一 Jakub Pachocki 说。“但这仍然就像建造一艘宇宙飞船，你需要把所有这些小部件都安装好，并确保没有一个坏掉。”

但 OpenAI 选择不透露 GPT-4 有多大。与之前的版本不同，该公司没有透露 GPT-4 的构建方式——数据、计算能力或训练技术。“OpenAI 现在是一家完全封闭的公司，其科学交流类似于产品新闻稿，”Wolf 说。

OpenAI 表示，它花了六个月的时间让 GPT-4 更安全、更准确。据该公司称，GPT-4 响应 OpenAI 不允许的内容请求的可能性比 GPT-3.5 低 82%，编造内容的可能性低 60%。

OpenAI 表示，它使用与 ChatGPT相同的方法取得了这些结果，通过人类反馈使用强化学习。这涉及要求人类评分者对来自模型的不同响应进行评分，并使用这些分数来改进未来的输出。

该团队甚至使用 GPT-4 来改进自身，要求它生成导致有偏见、不准确或冒犯性反应的输入，然后修复模型，以便它在未来拒绝此类输入。

GPT-4 可能是迄今为止构建的最好的多模态大型语言模型。但它并不属于自己的联盟，就像 GPT-3 在 2020 年首次出现时那样。过去三年发生了很多事情。今天，GPT-4 与其他多模态模型并驾齐驱，包括来自 DeepMind 的 Flamingo。Wolf 说，Hugging Face 正在开发一种开源多模态模型，其他人可以免费使用和改编该模型。

面对这样的竞争，OpenAI 将此版本更多地视为产品挑逗，而不是研究更新。GPT-4 的早期版本已与 OpenAI 的一些合作伙伴共享，其中包括微软，微软今天确认它使用 GPT-4 的一个版本来构建 Bing Chat。OpenAI 现在还与 Stripe、Duolingo、摩根士丹利和冰岛政府（正在使用 GPT-4 帮助保护冰岛语）等合作。

许多其他公司正在排队等候：“对于大多数公司来说，启动这种规模的模型的成本是无法承受的，但是 OpenAI 所采用的方法使大型语言模型对于初创公司来说非常容易获得，”Sheila Gulati 说，他是 OpenAI 的联合创始人投资公司托拉资本。“这将在 GPT-4 之上催化巨大的创新。”

强大的新人工智能从未如此迅速地从实验室变成面向消费者的产品。（在今天的其他新闻中，谷歌宣布它正在向第三方开发人员提供自己的大型语言模型 PaLM，并在 Google Docs 和 Gmail 中推出聊天机器人功能；人工智能公司 Anthropic 宣布了一种名为 Claude 的新大型语言模型，该模型已经包括 Notion 和 Quora 在内的几家公司正在试用。）

然而，大型语言模型仍然存在根本性缺陷。GPT-4 仍然可以生成有偏见的、虚假的和仇恨的文本；它也仍然可以被黑客攻击以绕过它的护栏。尽管 OpenAI 改进了这项技术，但它并没有彻底解决它。该公司声称其安全测试足以让 GPT-4 用于第三方应用程序。但它也为惊喜做好了准备。

“安全不是二元的东西；这是一个过程，”Sutskever 说。“每当你达到新能力的水平时，事情就会变得复杂。许多这些功能现在已经很清楚了，但我相信其中一些功能仍然会令人惊讶。”

甚至 Sutskever 也表示，放慢发布速度有时可能更可取：“非常希望最终出现这样一个世界，在这个世界中，公司会提出某种流程，允许更慢地发布具有这些完全前所未有的功能的模型。”