ChatGPT 代码解释器：GPT4.5？

工具软件2年前 (2023)发布 AI观察员

366 0 0

Windows 3.0跃升至95，以传达他们（现在是标志性的）重新设计。Microsoft Excel从5到7，以便与MS Office的其余部分同步，MacOS和Windows都跳过了版本9以吸引X世代。 React从0.14跃升至v15，而Kubernetes和Go则展示了系统开发人员对破坏任何东西/计数到2的承诺/无法。

那么我们应该如何对基础模型进行版本控制呢？ 对于研究人员来说，这是一个有点陌生的概念，他们会随便训练400个无名的LLM来证明一个观点，但随着人工智能工程师在其上构建产品和业务，这一点变得越来越重要。

在迄今为止生成式AI的简史中，我们已经有一些值得注意的案例研究。虽然 GPT1→2→3 的进展每次都是向前迈出的明显一步，而 Midjourney 4→5 预示着巴黎世家教皇，但稳定扩散 1→2 等其他发展更具争议性。次要版本升级应该是没有争议的 – 它可能意味着从相同的检查点开始并添加更多培训 – 如SD v1.3→1.4→1.5…

…这给我们带来了今天的主题半点 GPT 版本作为成帧设备

您可能还记得，GPT3.5 是与 ChatGPT 一起宣布的，追溯包括在其text-davinci-003 并职权范围内。这完成了两件事：code-davinci-002

提高人们对 GPT3.5 型号明显优于 GPT3（2020 年份）型号的认识，因为 1）添加代码，2）指令调整，3） RLHF/PPO
表明新的聊天范式是通用AI的前进方向
3

我对代码解释器模型的评论的中心框架主题将围绕：

提高对 GPT4 此更新重要性的认识
4
暗示这种新范式是通用人工智能的前进方向

这两种品质使我得出结论，代码解释器应该被视为事实上的GPT 4.5，如果有一天有一个API，我愿意打赌它也将被追溯到法律上的名称。

但我们超越了自己。

是时候回顾一下了，就像我们为ChatGPT，GPT4和Auto-GPT所做的那样！

代码解释器执行摘要

代码解释器是“一个实验性的ChatGPT模型：

“，可以将 Python 写入 Jupyter Notebook 并在沙箱中执行它沙箱，该

与其他用户和互联网隔绝
7
支持高达 100MB 的上传/下载（包括 .csv、.xls、.png、.jpeg、.mov、.mp3、、个文件。.epub.pdf、.zip 整个 Git 存储库的
8

)
预装了（和），（），（），Pymovie（330多个库，如Pandas（数据分析），Matplotlib，Seaborn，Folium图表 and 地图pytesseractOCR枕头图像处理（ffmpeg），Scikit-Learn和PyTorch and 和TensorflowML)
9

.由于（2），您还可以上传额外的依赖项，例如 GGML。.

它于 23 月 2 日作为 ChatGPT 插件更新的一部分宣布，其中包括月获得了访问权限推出的著名演示安德鲁·梅恩和格雷格·布罗克曼。Alpha 测试人员在 <>、<> 月和 <> 月。最后，它作为选择加入测试版功能向所有~<>m

ChatGPT Plus 用户 6 月 8 日至 <> 日的

由于这些功能可以在代码中灵活且无限地组合，因此很难枚举所有功能，但通过示例（例如p5.js学习游戏创建 Discord 上的，绘制模因，创建交互式仪表板，数据预处理，包括季节性，编写复杂的AST操作代码，大规模人脸检测是有用的，请参阅 #code解释器输出通道）并浏览库列表

ChatGPT 代码解释器：GPT4.5？ — 样本由 Ethan Mollick 制作的，他不了解 Python，但对从代码解释器中获取内容了解很多。Ethan 还将他的经验提炼为一个很长的系统提示符，以获得良好的代码解释器默认值。看到others其他人和其他人。

需要注意的是，代码解释器实际上引入了两个新东西，而不是一个 – 沙盒和模型：

七月份之前的大多数 alpha 测试都强调了 Python 沙箱以及你可以在其中做什么，顺便提到了自主编码能力。
但是GA发布后的重点是 – 这是轶事模型的质量 通过代码解释器提供的
13

似乎比今天的 GPT-4 更好（编写代码，自主完成多个步骤，决定何时不继续并要求用户在一组选项之间进行选择）。

模型的自主性必须被看到才能被相信。这是零人工输入的编码和调试：

模型的进步是为什么开源尝试在三月份的演示之后克隆代码解释器的原因，就像这样，这大多失败了。就像之前的 ChatGPT 一样，代码解释器感觉像是一种进步，因为它将模型与模态捆绑在一起。

限制 – 超出硬件系统规格

环境经常重置代码执行状态，丢失已上载的文件，并且其从故障中恢复的能力受到限制。
它可以做的OCR甚至不接近GPT-4 Vision。
15

.
它会拒绝做它能做的事情，你必须坚持它无论如何都能做到 anyway。
它无法在代码中调用 GPT3/4，因为它无法访问 Web，因此无法执行数据增强等任务，因为它试图编写代码来解决问题。

但总的来说，印象非常强烈：

“Code Interpreter Beta非常强大。它是您的个人数据分析师：可以读取上传的文件，执行代码，生成图表，统计分析等等。我预计社区需要一些时间来充分挖掘其潜力。 Karpathy

“如果这不是一个改变世界、GDP变化的产品，我不确定究竟会是什么。每个有剧本的人每月 20 美元“——roon

16

“我开始搞砸代码解释器，它在接下来的两年里完成了我路线图上的所有事情” – Simon Willison，在今天的播客中

推理：下一个大前沿

之后，随之而来的顶级辩论之一是在我们的George Hotz谈话关于如果GPT-4真的“只是8 x 220B专家”，OpenAI是否“没有想法”。just 8 x 220B experts撇开路由语言模型和开关转换器的工作是像这样的万亿参数类模型的真正PanGu进步，Code Interpreter表明，只要你不将你的进步定义限制在纯粹的LLM推理上，并且OpenAI已经处于领先地位，那么仍然有进步的空间。

2017年，诺姆·布朗（Noam Brown）建立了Libratus，这是一款人工智能，在120万手无限制德州扑克中击败了四名顶级专业人士。主要见解之一？

“神经网络通常会在大约 100 毫秒左右给你一个响应……我们发现，如果你做一点搜索，这，只需一点点相当于让你预先计算的策略大1000倍搜索。它只是吹走了我们一直在进行的所有研究。（摘自带时间戳的视频)

结果是追溯显而易见的（最好的一种显而易见！

在现实生活中，当面临比更容易的问题更难的问题时，人类需要更长的时间来思考。但是 GPT3 需要 ~相同的时间来回答“球是圆的吗？”作为“P = NP 吗？” 如果我们让它花一年时间呢？
我们已经看过小岛等人臭名昭著的《让我们一步一步思考》
17

通过允许其在上下文中将其思维过程外部化，但也需要更多的推理时间，从而大大提高LLM的性能but also take more inference time。光束和思想树类型搜索可以更有效地利用推理时间。
人工智能的每一个伟大飞跃都来自于解锁某种规模。 转换器解锁并行预训练计算。掩蔽语言建模让我们可以放松大量未标记的数据。缩放定律为我们提供了分解模型大小的地图，时间。很明显推理计算/“实时搜索”是下一个前沿领域，允许我们“投入时间”。
18

.

诺姆后来在 2019 年利用这一见解与 Pluribus 解决了 6 方扑克，然后在 2022 年再次与西塞罗合作解决外交问题（感谢来自的搜索算法AlphaGo 和 AlphaZero）。上个月他还在想：

2周后，他加入了OpenAI。

Codegen、Sandboxing & the Agent Cloud

一段时间以来，我一直在喋喋不休地谈论LLM编码能力的特殊地位a while。这是人工智能工程师崛起的重要推动力。这不是一个“哦，可爱，这是Copilot，这对开发人员有好处，但别无他法”的故事 – LLMs-that-code通常即使对于不编码的人也很有用，因为LLM是代码之上的完美抽象。

我所知道的最早的“Code Core”实验来自Riley Goodside，他去年的“你是GPT-3，你不能做数学”。

这是修补LLM缺陷（做数学，与外部环境交互，可解释性，速度/成本）的最佳方法是利用其编写代码的能力来做LLM之外的事情的第一个迹象。

英伟达的Voyager创建了路线图，以得出合乎逻辑的结论“：

不过，从Voyager进行概括有一个明显的问题：现实世界比Minecraft更加随机，记录更少，反馈循环更长。从 Minion AI 和的当前代理实现 Multion 到 AutoGPT也都在您的实时浏览器/桌面上运行，使潜在的幻觉和错误成为灾难性的，并创造出相当于始终必须将手放在方向盘上的自动驾驶汽车。

如果你是“代码核心”，你知道这是怎么回事。自从Ada Lovelace开始为Babbage Difference Engine编写代码以来，开发人员一直在现实的分支上进行测试运行。 before it existed为它

.您可以使用语义层改进代码生成，如（节目的朋友！Seek AI 的 Sarah Nagy 已经做到了，但最终知道代码是否会运行并做你期望的事情的唯一方法是创建一个沙箱，比如（节目的朋友！） Shreya Rajpal 的 Guardrails，并生成测试，比如（节目的朋友！Codium AI的Itamar Friedman已经做到了。

大多数代码生成/沙盒可以而且应该在本地完成，但随着 Localhost 的终结越来越近，越来越多的代理构建者和用户意识到需要云基础设施来构建和运行 LLM 推理过程的这些代码段，人们可以非常合乎逻辑地预测代理云的兴起 Agent Clouds 以满足这一需求。这实际上是一种新型的无服务器基础设施需求 – 它不仅是短暂的和以编程方式提供的，而且将具有向非人类操作员提供必要的反馈的特殊功能。不出所料，新生的代理云子行业有大量候选人：

来自Replit的Amjad已经在大声思考
来自E2B的瓦塞克
20

有一个开源的鞭炮微型虚拟机实现
的Ives 来自Codesandbox 也有一个
来自Fly的Kurt在 Fly Machines 五月推出了

你会注意到，他们都使用Firecracker，这是2018年开源的QEMU替代microVM技术亚马逊在（对于一家通常不以OSS领导而闻名的公司来说，这是一个不错的胜利）。然而，一个对比的方法可能来自Deno（在in JavaScriptJavaScript-land中）和Modal（在PythonPython-land中），它们的自我配置运行时在代理开发人员和基础设施提供商之间提供了一个更轻量级的合同，但代价是熟悉度要低得多。

当然，OpenAI必须构建自己的代理云，以便在一个周末为2万客户提供托管和扩展代码解释器。他们多年来一直在工作中使用它，而我们其他人刚刚意识到它的重要性。

通往 GPT-5 之路：代码增强推理

综上所述，我们可以将代码解释器与先前的方法进行对比：

您可以考虑保证主要版本和次要版本碰撞的进步，考虑代码解释器“继续存在”的可能性，因为它解锁了功能，并查看我对代码解释器“GPT 4.5”的看法。

在我们的播客对话中（我最终会插入，但稍后会做显示笔记），我们还将注意到 GPT4 顽固分子的轶事经验，他们坚持认为基线 GPT4 质量已经恶化（Logan 断言服务模型没有变化）也是那些报告代码解释器的输出的人，而不是编写代码。，与原始 GPT4 在被“神经化”之前一样好。假设这是真的（如果没有明确的代码解释器 API 来通过 lm-eval-harness 运行，很难伪造），很可能为代码解释器编写代码所做的额外微调也提高了整体输出质量（我们从研究和 Replit 以及 GPT3.5 自己的代码达芬奇-002 中起源的结果）……使代码解释器的基本模型，没有沙盒，仅在模型质量上就有效地“GPT 4.5”。

杂项笔记不适合任何地方

开放人工智能领导力。Sundar Pichai 在六月份宣布了 Google Bard 的“隐式代码执行”，它执行了简单的无依赖 Python 功能，如数字加法和字符串反转。有趣的事实 – 一个月后，当我重新运行谷歌宣传的相同提示时，它完全失败了！与此同时，OpenAI正在推出一种全新的LLM编码范式。OpenAI遥遥领先。
OpenAI 作为云发行版。由于非常熟悉多个“第二层云”（又名 Cloud Distros），我不禁注意到OpenAI现在是Cloud Distro形状的。它多久才能开始对计算时间、存储容量、引入 IAM 策略以及填写云服务的其余组件收费？它要多久才能删除名称中的“开放”并成为AI云？