GPT-4 发布

OpenAI推出了GPT-4 Release，这是他们推进深度学习的最新成果。GPT-4 是一个实质性的多模式模型（在生成文本输出的同时处理图像和文本输入），尽管在许多现实世界的情况下不如人类熟练，但它在各种专业和学术基准上展示了人类水平的表现。

GPT-4 作为一个庞大的多模式模型，接受图像和文本输入并生成文本输出。尽管在许多现实世界的案例中它不如人类熟练，但它在一系列专业和学术基准上表现出人类水平的熟练程度。

例如，GPT-4 在模拟律师考试中取得了前 10% 的分数，而 GPT-3.5 的分数则落在了后 10% 之内。OpenAI 工程师花了 6 个月的时间逐步完善 GPT-4，利用他们的对抗性测试程序和 ChatGPT 的见解，在真实性、可控性和遵守护栏方面产生了迄今为止最好的结果，尽管并非完美无缺。

OpenAI 正在通过 ChatGPT 和 API（有候补名单）推出 GPT-4 的文本输入功能。为了更广泛地使用图像输入功能，他们与Be My Eyes展开了密切合作。此外，OpenAI 正在开源他们的自动化 AI 模型性能评估框架OpenAI Evals，允许任何人报告模型弱点以帮助告知未来的改进。

能力

在随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性超过某个阈值时，差异就会变得明显——与 GPT-3.5 相比，GPT-4 被证明更可靠、更有创造力，并且能够处理复杂的指令。

为了了解这两种模型之间的差异，工程师们对各种基准进行了测试，包括那些最初用于人体检查的基准。工程师使用最新的公开测试（奥林匹克竞赛和 AP 自由回答问题）或购买 2022-2023 模拟考试。没有为这些考试提供专门的培训。虽然该模型在训练期间遇到了一小部分考试问题，但它被认为是具有代表性的结果——有关更多信息，请参阅 OpenAI 的技术报告。

OpenAI 在为机器学习模型创建的传统基准上评估了 GPT-4。GPT-4 明显优于现有的大型语言模型和大多数最先进的 (SOTA) 模型，这些模型可能涉及特定于基准的调整或其他训练方法。

视觉输入

GPT-4 可以处理文本和图像的组合作为输入，允许用户指定任何视觉或语言任务，类似于纯文本上下文。具体来说，GPT-4 基于包含混合文本和图像的输入生成文本输出（自然语言、代码等）。

GPT-4 在各种领域（包括带有文本和照片的文档、图表或屏幕截图）显示类似的功能，就像它处理纯文本输入一样。此外，它还可以受益于为纯文本语言模型开发的测试时间技术，例如少镜头和思维链提示。

图像输入仍然是研究预览，尚未公开。但是您可以在下面看到模型的响应示例：

OpenAI 通过在有限选择的标准学术视觉基准上对其进行评估，让您一窥 GPT-4 的性能。尽管如此，这些数字并未完全体现其功能，因为工程师们不断发现该模型可以完成的新颖而令人兴奋的任务。OpenAI 打算在不久的将来发布进一步的分析、评估指标和对测试时间技术影响的全面检查。

总之，GPT-4 Release 标志着大规模多模态 AI 模型的开发向前迈出了重要一步，展示了在文本和图像处理任务方面令人印象深刻的能力。

当我们设想未来GPT-5模型的可能性时，期望它在处理日益复杂的任务的能力上有更大的进步，超越 GPT-4 在各个领域的表现是不合理的。

我们预计ChatGPT-5将具有更复杂的上下文理解、增强的创造力以及视觉和文本输入的更无缝集成。它将提供人机交互的变革性体验，并开辟人工智能应用的新领域。

GPT-4 发布

能力

视觉输入

ChatGPT 拼写错误

相关文章

你或许会喜欢