OpenAI最近在ChatGPT中引入了新的语音和图像功能,这是人工智能领域向前迈出的一大步。我强烈建议您查看我遇到的关于这种新的ChatGPT 4 Vision技术如何用于各种应用的第一个示例。例如,只需绘制所需程序的流程图,ChatGPT 将编写代码以使其成为现实
这些新的 ChatGPT Vision 功能使用户能够进行语音对话并向 AI 显示图像,从而扩展了 ChatGPT 在日常生活中的使用方式。从识别地标到根据食品储藏室内容建议食谱,或协助解决数学问题,可能性是巨大的,几乎是无穷无尽的。
这些语音和图像功能的推出将在未来两周内提供给ChatGPT Plus和企业用户。语音将在iOS和Android上提供,而图像将在所有平台上提供。这种功能的扩展证明了OpenAI致力于使AI更易于访问和有用。
聊天语音
ChatGPT 中的语音功能由新的文本转语音模型提供支持,该模型从文本和示例语音生成类似人类的音频。此功能是与专业配音演员合作开发的,并使用OpenAI的开源语音识别系统Whisper将口语转录为文本。与Spotify在语音翻译功能方面的合作是如何将AI集成到日常应用程序中的一个主要例子。
另一方面,图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将语言推理技能应用于各种图像,包括照片、屏幕截图以及包含文本和图像的文档。此功能允许 ChatGPT 识别图像中的特定元素,包括人和物体,甚至可以从屏幕截图中为软件即服务仪表板编写代码,如 AI 开发人员 McKay Wrigley 所示。
ChatGPT Vision
这些语音和图像技术的引入并非没有潜在的风险和挑战。新的语音技术存在潜在的风险,例如冒充或欺诈,因此其使用仅限于语音聊天等特定应用程序。基于视觉的模型也带来了挑战,例如幻觉或高风险的解释。为了降低这些风险,OpenAI在部署之前进行了广泛的测试和风险评估。
OpenAI还与盲人和低视力人群的应用程序Be My Eyes合作,以了解基于视觉的模型的用途和局限性。这种合作帮助OpenAI制定了技术措施,以限制ChatGPT分析和直接陈述人的能力,以尊重个人隐私。
尽管有这些令人印象深刻的功能,但重要的是要注意人工智能技术仍然存在局限性。例如,ChatGPT未能通过智商测试,这表明其读取自己的响应和推断反向逻辑的能力存在局限性。然而,人工智能技术的快速发展是有希望的,在软件开发和用户测试方面有潜在的应用。
OpenAI在ChatGPT中引入语音和图像功能是AI领域的重大进步。虽然这些技术存在潜在的风险和挑战,但OpenAI致力于构建安全和有益的AGI,加上严格的测试和风险评估,确保这些工具将继续得到完善和改进。随着人工智能的不断发展,它无疑将成为我们日常生活中更加不可或缺的一部分。