ChatGPT 如何运作?

最新资讯2年前 (2023)发布 AI观察员
263 0 0

此时您可能已经听说过 ChatGPT。人们用它来做家庭作业、编写前端 Web 应用程序以及撰写科学论文。使用语言模型感觉就像变魔术一样;计算机了解您的需求并为您提供正确的答案。但在幕后,它只是代码和数据。

当您使用指令提示 ChatGPT 时,例如Write me a poem about cats,它会将提示转换为标记。标记是文本片段,例如write, 或poe。每种语言模型都有不同的标记词汇表。

计算机无法直接理解文本,因此语言模型将标记转化为嵌入。嵌入类似于 Python 列表——它们看起来像这样[1.1,-1.2,2,.1,...]。语义相似的标记被转化为相似的数字列表。

ChatGPT 是一种因果语言模型。这意味着它需要所有先前的标记,并尝试预测下一个标记。它一次预测一个标记。通过这种方式,它有点像自动完成——它获取所有文本,并试图预测接下来会发生什么。

它通过获取嵌入列表并将其传递给多个转换器层来进行预测。Transformers 是一种神经网络架构,可以找到序列中元素之间的关联。他们使用一种称为注意力的机制来做到这一点。例如,如果您正在阅读问题Who is Albert Einstein?,并且想得出答案,您将主要注意单词WhoEinstein

变形金刚经过训练,可以识别提示中的哪些词需要注意,以便生成响应。训练可能需要数千个 GPU 和几个月的时间!在此期间,转换器会收到数 GB 的文本数据,以便它们能够学习正确的关联。

为了进行预测,转换器将输入嵌入转换为正确的输出嵌入。所以你最终会得到一个像 的输出嵌入[1.5, -4, -.1.3, .1,...],你可以把它变回一个标记。

如果 ChatGPT 一次只预测一个标记,您可能想知道它如何得出整篇文章。这是因为它是自回归的。这意味着它预测一个标记,然后将其添加回提示并将其反馈回模型。所以模型实际上为输出中的每个标记运行一次。这就是为什么您会逐字而不是一次看到 ChatGPT 的输出。

© 版权声明

相关文章

天猫U特购  京东优惠购        京东优惠    天猫优惠