OpenAI 终于推出了GPT-4,这是一种传闻去年大部分时间都在开发中的下一代大型语言模型。这家总部位于旧金山的公司的最后一次出人意料的成功是ChatGPT,这一直是一个难以遵循的行为,但OpenAI使 GPT-4 变得更大更好。
然而,OpenAI 不会说更大和为什么更好。GPT-4 是该公司发布过的最机密的版本,标志着其从非营利性研究实验室全面转变为营利性科技公司。
OpenAI 的首席科学家 Ilya Sutskever 在公告发布一个小时后通过视频通话与 GPT-4 团队成员交谈时说:“你知道,我们目前无法对此发表评论。” “那里的竞争非常激烈。”
GPT-4 是一种多模态大型语言模型,这意味着它可以响应文本和图像。给它一张你冰箱里的东西的照片,然后问它你能做什么,GPT-4 就会尝试使用图片中的原料来制作食谱。它也很擅长解释笑话,Sutskever 说:“如果你给它看一个表情包,它就能告诉你它为什么好笑。”
注册到候补名单的用户和高级付费 ChatGPT Plus 的订户将可以有限的纯文本容量访问 GPT-4。
“在许多方面的持续改进是显着的,”艾伦人工智能研究所的 Oren Etzioni 说。“GPT-4 现在是评估所有基础模型的标准。”
“在过去的几年里,一个好的多模式模型一直是许多大型技术实验室的圣杯,”开源大型语言模型 BLOOM 背后的人工智能初创公司 Hugging Face 的联合创始人 Thomas Wolf说。“但它仍然难以捉摸。”
从理论上讲,结合文本和图像可以让多模态模型更好地理解世界。“它可能能够解决语言模型的传统弱点,比如空间推理,”Wolf 说。
目前尚不清楚 GPT-4 是否如此。OpenAI 的新模型似乎比 ChatGPT 更擅长一些基本推理,解决简单的难题,例如总结以相同字母开头的单词中的文本块。在我的通话演示中,我看到 GPT-4 使用以 g 开头的词总结了 OpenAI 网站上的公告简介:“GPT-4,突破性的代际增长,获得更高的成绩。护栏、指导和收获。巨大的、开创性的、具有全球天赋的。” 在另一个演示中,GPT-4 接受了一份关于税收的文件并回答了有关它的问题,并给出了回答的理由。
它还在人体测试中优于 ChatGPT,包括 Uniform Bar Exam(其中 GPT-4 排名第 90 个百分位,ChatGPT 排名第 10 个)和生物奥林匹克竞赛(其中 GPT-4 排名第 99 个百分位,ChatGPT 排名第 31 个) ). “令人兴奋的是,现在开始根据人类自己使用的相同基准进行评估,”Wolf 说。但他补充说,在没有看到技术细节的情况下,很难判断这些结果到底有多令人印象深刻。
根据 OpenAI 的说法,GPT-4 比基于 GPT-3.5 的 ChatGPT 表现更好,ChatGPT 是该公司先前技术的一个版本——因为它是一个更大的模型,具有更多的参数(神经网络中的值在训练过程中得到调整) . 这遵循了该公司在其之前的模型中发现的一个重要趋势。GPT-3 优于 GPT-2,因为它比 GPT-2 大 100 倍以上,参数为 1750 亿个,而 GPT-2 为 15 亿个。“这个基本公式多年来并没有真正改变多少,”GPT-4 的开发者之一 Jakub Pachocki 说。“但这仍然就像建造一艘宇宙飞船,你需要把所有这些小部件都安装好,并确保没有一个坏掉。”
但 OpenAI 选择不透露 GPT-4 有多大。与之前的版本不同,该公司没有透露 GPT-4 的构建方式——数据、计算能力或训练技术。“OpenAI 现在是一家完全封闭的公司,其科学交流类似于产品新闻稿,”Wolf 说。
OpenAI 表示,它花了六个月的时间让 GPT-4 更安全、更准确。据该公司称,GPT-4 响应 OpenAI 不允许的内容请求的可能性比 GPT-3.5 低 82%,编造内容的可能性低 60%。
OpenAI 表示,它使用与 ChatGPT相同的方法取得了这些结果,通过人类反馈使用强化学习。这涉及要求人类评分者对来自模型的不同响应进行评分,并使用这些分数来改进未来的输出。
该团队甚至使用 GPT-4 来改进自身,要求它生成导致有偏见、不准确或冒犯性反应的输入,然后修复模型,以便它在未来拒绝此类输入。
GPT-4 可能是迄今为止构建的最好的多模态大型语言模型。但它并不属于自己的联盟,就像 GPT-3 在 2020 年首次出现时那样。过去三年发生了很多事情。今天,GPT-4 与其他多模态模型并驾齐驱,包括来自 DeepMind 的 Flamingo。Wolf 说,Hugging Face 正在开发一种开源多模态模型,其他人可以免费使用和改编该模型。
面对这样的竞争,OpenAI 将此版本更多地视为产品挑逗,而不是研究更新。GPT-4 的早期版本已与 OpenAI 的一些合作伙伴共享,其中包括微软,微软今天确认它使用 GPT-4 的一个版本来构建 Bing Chat。OpenAI 现在还与 Stripe、Duolingo、摩根士丹利和冰岛政府(正在使用 GPT-4 帮助保护冰岛语)等合作。
许多其他公司正在排队等候:“对于大多数公司来说,启动这种规模的模型的成本是无法承受的,但是 OpenAI 所采用的方法使大型语言模型对于初创公司来说非常容易获得,”Sheila Gulati 说,他是 OpenAI 的联合创始人投资公司托拉资本。“这将在 GPT-4 之上催化巨大的创新。”
强大的新人工智能从未如此迅速地从实验室变成面向消费者的产品。(在今天的其他新闻中,谷歌宣布它正在向第三方开发人员提供自己的大型语言模型 PaLM,并在 Google Docs 和 Gmail 中推出聊天机器人功能;人工智能公司 Anthropic 宣布了一种名为 Claude 的新大型语言模型,该模型已经包括 Notion 和 Quora 在内的几家公司正在试用。)
然而,大型语言模型仍然存在根本性缺陷。GPT-4 仍然可以生成有偏见的、虚假的和仇恨的文本;它也仍然可以被黑客攻击以绕过它的护栏。尽管 OpenAI 改进了这项技术,但它并没有彻底解决它。该公司声称其安全测试足以让 GPT-4 用于第三方应用程序。但它也为惊喜做好了准备。
“安全不是二元的东西;这是一个过程,”Sutskever 说。“每当你达到新能力的水平时,事情就会变得复杂。许多这些功能现在已经很清楚了,但我相信其中一些功能仍然会令人惊讶。”
甚至 Sutskever 也表示,放慢发布速度有时可能更可取:“非常希望最终出现这样一个世界,在这个世界中,公司会提出某种流程,允许更慢地发布具有这些完全前所未有的功能的模型。”