ChatGPT 如何运作？

最新资讯3年前 (2023)发布 AI观察员

526 0 0

此时您可能已经听说过 ChatGPT。人们用它来做家庭作业、编写前端 Web 应用程序以及撰写科学论文。使用语言模型感觉就像变魔术一样；计算机了解您的需求并为您提供正确的答案。但在幕后，它只是代码和数据。

当您使用指令提示 ChatGPT 时，例如Write me a poem about cats，它会将提示转换为标记。标记是文本片段，例如write, 或poe。每种语言模型都有不同的标记词汇表。

计算机无法直接理解文本，因此语言模型将标记转化为嵌入。嵌入类似于 Python 列表——它们看起来像这样[1.1,-1.2,2,.1,...]。语义相似的标记被转化为相似的数字列表。

ChatGPT 是一种因果语言模型。这意味着它需要所有先前的标记，并尝试预测下一个标记。它一次预测一个标记。通过这种方式，它有点像自动完成——它获取所有文本，并试图预测接下来会发生什么。

它通过获取嵌入列表并将其传递给多个转换器层来进行预测。Transformers 是一种神经网络架构，可以找到序列中元素之间的关联。他们使用一种称为注意力的机制来做到这一点。例如，如果您正在阅读问题Who is Albert Einstein?，并且想得出答案，您将主要注意单词Who和Einstein。

变形金刚经过训练，可以识别提示中的哪些词需要注意，以便生成响应。训练可能需要数千个 GPU 和几个月的时间！在此期间，转换器会收到数 GB 的文本数据，以便它们能够学习正确的关联。

为了进行预测，转换器将输入嵌入转换为正确的输出嵌入。所以你最终会得到一个像的输出嵌入[1.5, -4, -.1.3, .1,...]，你可以把它变回一个标记。

如果 ChatGPT 一次只预测一个标记，您可能想知道它如何得出整篇文章。这是因为它是自回归的。这意味着它预测一个标记，然后将其添加回提示并将其反馈回模型。所以模型实际上为输出中的每个标记运行一次。这就是为什么您会逐字而不是一次看到 ChatGPT 的输出。

# 最新资讯