ChatGPT 视觉和 AI 艺术生成测试

OpenAI最近在ChatGPT中引入了新的语音和图像功能，这是人工智能领域向前迈出的一大步。我强烈建议您查看我遇到的关于这种新的ChatGPT 4 Vision技术如何用于各种应用的第一个示例。例如，只需绘制所需程序的流程图，ChatGPT 将编写代码以使其成为现实

这些新的 ChatGPT Vision 功能使用户能够进行语音对话并向 AI 显示图像，从而扩展了 ChatGPT 在日常生活中的使用方式。从识别地标到根据食品储藏室内容建议食谱，或协助解决数学问题，可能性是巨大的，几乎是无穷无尽的。

这些语音和图像功能的推出将在未来两周内提供给ChatGPT Plus和企业用户。语音将在iOS和Android上提供，而图像将在所有平台上提供。这种功能的扩展证明了OpenAI致力于使AI更易于访问和有用。

聊天语音

ChatGPT 中的语音功能由新的文本转语音模型提供支持，该模型从文本和示例语音生成类似人类的音频。此功能是与专业配音演员合作开发的，并使用OpenAI的开源语音识别系统Whisper将口语转录为文本。与Spotify在语音翻译功能方面的合作是如何将AI集成到日常应用程序中的一个主要例子。

另一方面，图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将语言推理技能应用于各种图像，包括照片、屏幕截图以及包含文本和图像的文档。此功能允许 ChatGPT 识别图像中的特定元素，包括人和物体，甚至可以从屏幕截图中为软件即服务仪表板编写代码，如 AI 开发人员 McKay Wrigley 所示。

ChatGPT Vision

这些语音和图像技术的引入并非没有潜在的风险和挑战。新的语音技术存在潜在的风险，例如冒充或欺诈，因此其使用仅限于语音聊天等特定应用程序。基于视觉的模型也带来了挑战，例如幻觉或高风险的解释。为了降低这些风险，OpenAI在部署之前进行了广泛的测试和风险评估。

OpenAI还与盲人和低视力人群的应用程序Be My Eyes合作，以了解基于视觉的模型的用途和局限性。这种合作帮助OpenAI制定了技术措施，以限制ChatGPT分析和直接陈述人的能力，以尊重个人隐私。

尽管有这些令人印象深刻的功能，但重要的是要注意人工智能技术仍然存在局限性。例如，ChatGPT未能通过智商测试，这表明其读取自己的响应和推断反向逻辑的能力存在局限性。然而，人工智能技术的快速发展是有希望的，在软件开发和用户测试方面有潜在的应用。

OpenAI在ChatGPT中引入语音和图像功能是AI领域的重大进步。虽然这些技术存在潜在的风险和挑战，但OpenAI致力于构建安全和有益的AGI，加上严格的测试和风险评估，确保这些工具将继续得到完善和改进。随着人工智能的不断发展，它无疑将成为我们日常生活中更加不可或缺的一部分。

ChatGPT 视觉和 AI 艺术生成测试

聊天语音

ChatGPT Vision

通过 PowerShell 在 Windows 11 或 10 上安装 Docker Desktop

您现在可以通过必应聊天免费访问 DALL-E 3 型号，并 Bing.com/create

相关文章

你或许会喜欢