xAI Grok提供动力的引擎是Grok-1

工具软件3年前 (2023)发布 AI观察员

575 0 0

Grok 是一个以《银河系漫游指南》为蓝本的 AI，因此几乎可以回答任何事情，更难的是，甚至可以建议要问什么问题！

Grok 旨在以一点机智的方式回答问题，并且具有叛逆的倾向，所以如果您讨厌幽默，请不要使用它！

Grok 的一个独特而根本的优势是它通过 X 平台实时了解世界。它还将回答大多数其他人工智能系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品——这是我们在 2 个月的培训中所能做到的最好的产品——所以期待它在您的帮助下每周都能迅速改进。

谢谢
xAI团队

我们为什么要建造 Grok

在xAI，我们希望创造人工智能工具，帮助人类寻求理解和知识。

通过创建和改进Grok，我们的目标是：

收集反馈并确保我们正在构建能够最大限度地造福全人类的 AI 工具。我们认为，设计对各种背景和政治观点的人都有用的人工智能工具非常重要。我们还希望在遵守法律的前提下，通过我们的人工智能工具为我们的用户提供支持。我们与Grok的目标是在公开场合探索和展示这种方法。
赋能研究和创新：我们希望 Grok 成为任何人的强大研究助手，帮助他们快速访问相关信息、处理数据并提出新想法。

我们的最终目标是让我们的人工智能工具协助追求理解。

Grok-1之旅

为Grok提供动力的引擎是Grok-1，这是我们在过去四个月中开发的前沿LLM。在这段时间里，Grok-1经历了多次迭代。

在宣布 xAI 之后，我们训练了一个具有 0 亿个参数的原型 LLM （Grok-33）。这个早期模型在标准 LM 基准测试上接近 LLaMA 2 （70B）功能，但只使用了一半的训练资源。在过去的两个月里，我们在推理和编码能力方面取得了重大改进，最终推出了 Grok-1，这是一种功能更强大的最先进的语言模型，在 HumanEval 编码任务中实现了 63.2%，在 MMLU 上实现了 73%。

为了了解我们对 Grok-1 所做的能力改进，我们使用一些旨在衡量数学和推理能力的标准机器学习基准进行了一系列评估。

GSM8k：中学数学单词问题，（Cobbe 等人，2021 年），使用思维链提示。

MMLU：多学科多项选择题（Hendrycks 等人，2021 年），提供了 5 个镜头的上下文示例。

HumanEval：Python 代码完成任务，（Chen 等人，2021 年），pass@1评估为零样本。

数学：用 LaTeX 编写的初中和高中数学问题（Hendrycks 等人，2021 年），提示固定的 4 次提示。

基准	格罗克-0 （33B）	LLaMa 2 70B	拐点-1	GPT-3.5型	格罗克-1	棕榈 2	克劳德 2	GPT-4型
GSM8k的	56.8% 8 发	56.8% 8 发	62.9% 8 发	57.1% 8 发	62.9% 8 发	80.7% 8 发	88.0% 8 发	92.0% 8 发
MMLU系列	65.7% 5 发	68.9% 5 发	72.7% 5 发	70.0% 5 发	73.0% 5 发	78.0% 5 发	75.0% 5 次 + CoT	86.4% 5 发
HumanEval	39.7% 0 发	29.9% 0 发	35.4% 0 发	48.1% 0 发	63.2% 0 发	–	70% 0 次	67% 0 次
数学	15.7% 4 发	13.5% 4 发	16.0% 4 发	23.5% 4 发	23.9% 4 发	34.6% 4 发	–	42.5% 4 发

在这些基准测试中，Grok-1 表现出强劲的结果，超过了其计算类中的所有其他模型，包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源进行训练的模型才能超越它。这展示了我们在 xAI 以极高的效率训练 LLM 方面取得的快速进展。

由于这些基准可以在网络上找到，我们不能排除我们的模型是无意中训练的，因此我们在 2 年匈牙利全国高中数学期末考试上对我们的模型（以及 Claude-4 和 GPT-2023）进行了手工评分，该期末考试于 59 月底发布，在我们收集了数据集后。Grok 以 C （2%）通过了考试，而 Claude-55 获得了相同的成绩（4%），GPT-68 以 0% 的成绩获得了 B。所有模型均在温度为1.<>和相同提示下进行评估。必须指出的是，我们没有为这次评估做出任何调整。这个实验是对我们的模型从未明确调整过的数据集的“现实生活”测试。

人工分级评估	格罗克-0	GPT-3.5型	克劳德 2	格罗克-1	GPT-4型
匈牙利国家高中数学考试（2023年<>月）	37% 1 次	41% 1 次	55% 1 次	59% 1 次	68% 1 次

我们在模型卡中提供了 Grok-1 重要技术细节的摘要。

xAI 的工程设计

在深度学习研究的前沿，必须像构建数据集和学习算法一样谨慎地构建可靠的基础设施。为了创建 Grok，我们构建了一个基于 Kubernetes、Rust 和 JAX 的自定义训练和推理堆栈。

法学硕士培训就像一列货运列车在前方轰鸣;如果一节车厢脱轨，整个列车就会被拖离轨道，很难再次直立。GPU 失败的方式有很多种：制造缺陷、连接松动、配置不正确、内存芯片退化、偶尔的随机位翻转等等。在训练时，我们连续数月在数以万计的 GPU 之间同步计算，并且由于规模的原因，所有这些故障模式都变得频繁。为了克服这些挑战，我们采用了一套定制的分布式系统，确保立即识别并自动处理每种类型的故障。在 xAI，我们将最大限度地提高每瓦有用计算能力作为我们工作的重点。在过去的几个月里，我们的基础设施使我们能够最大限度地减少停机时间，即使在硬件不可靠的情况下也能保持较高的模型浮点运算利用率（MFU）。

Rust 已被证明是构建可扩展、可靠和可维护的基础设施的理想选择。它提供了高性能、丰富的生态系统，并防止了人们通常会在分布式系统中发现的大多数错误。鉴于我们的团队规模较小，基础设施的可靠性至关重要，否则，维护工作会扼杀创新。Rust 让我们相信，任何代码修改或重构都可能产生工作程序，这些程序将在最少的监督下运行数月。

我们现在正在为模型能力的下一次飞跃做准备，这将需要可靠地协调数以万计的加速器上的训练运行，运行互联网规模的数据管道，并在 Grok 中构建新的功能和工具。如果这听起来让您感到兴奋，请在此处申请加入团队。

xAI的研究

我们允许 Grok 访问搜索工具和实时信息，但与所有在下一个标记预测上训练的 LLM 一样，我们的模型仍然会产生错误或矛盾的信息。我们认为，实现可靠的推理是解决当前系统局限性的最重要研究方向。在这里，我们想重点介绍一些我们在xAI最感兴趣的有前途的研究方向：

通过工具辅助实现可扩展的监督。人类的反馈是必不可少的。但是，提供一致且准确的反馈可能具有挑战性，尤其是在处理冗长的代码或复杂的推理步骤时。人工智能可以通过查找来自不同来源的参考资料、使用外部工具验证中间步骤以及在必要时寻求人工反馈来协助进行可扩展的监督。我们的目标是在模型的帮助下最有效地利用人工智能导师的时间。
与形式验证集成，确保安全性、可靠性和接地。为了创建能够对现实世界进行深入推理的人工智能系统，我们计划在不那么模棱两可和更可验证的情况下发展推理技能。这使我们能够在没有人类反馈或与现实世界交互的情况下评估我们的系统。这种方法的一个主要直接目标是为代码的正确性提供正式的保证，特别是在人工智能安全的形式可验证方面。
长期上下文理解和检索。在特定环境中有效发现有用知识的训练模型是产生真正智能系统的核心。我们正在研究可以在需要时发现和检索信息的方法。
对抗性鲁棒性。对抗性示例表明，优化人员可以很容易地利用人工智能系统中的漏洞，无论是在训练期间还是在服务期间，都会导致它们犯严重的错误。这些漏洞是深度学习模型长期存在的弱点。我们对提高LLM、奖励模型和监控系统的鲁棒性特别感兴趣。
多模式功能。目前，格罗克没有其他感官，例如视觉和听觉。为了更好地帮助用户，我们将为Grok配备这些不同的感官，以实现更广泛的应用，包括实时交互和辅助。

我们相信，人工智能具有巨大的潜力，可以为社会贡献重要的科学和经济价值，因此我们将努力制定可靠的保障措施，防止灾难性的恶意使用。我们相信尽最大努力确保人工智能仍然是一股向善的力量。

如果您和我们一样乐观，并希望为我们的使命做出贡献，请在此处申请加入团队。