OpenAI是一家领先的人工智能研究实验室,负责创建ChatGPT,将语音和图像功能引入其流行的语言模型。这一重大的 ChatGPT 更新将允许用户参与语音对话并将图像显示给 AI 模型以进行交互,这标志着 AI 通信发展向前迈出了重要一步。
在 ChatGPT 中引入语音和图像功能旨在提供更直观的界面,并扩展 AI 在日常生活中的使用方式。例如,用户可以使用这些新功能讨论地标、计划膳食或寻求家庭作业帮助。该部署最初将在未来两周内提供给ChatGPT Plus和ChatGPT Enterprise用户,在iOS和Android上提供语音,并在所有平台上提供图像。
语音功能由新的文本转语音模型和OpenAI的开源语音识别系统Whisper提供支持。这允许用户与AI进行来回对话,从而创造更具交互性和吸引力的用户体验。用户可以从与专业配音演员合作创建的五种不同声音中进行选择,为AI交互添加一层个性化。
ChatGPT 现在可以看到、听到和说话
另一方面,图像功能允许用户向 ChatGPT 显示一个或多个图像,然后 ChatGPT 可以分析和讨论图像。这种图像理解由多模态 GPT-3.5 和 GPT-4 提供支持,它们将语言推理技能应用于各种图像。
另一方面,图像功能允许用户向 ChatGPT 显示一个或多个图像,然后 ChatGPT 可以分析和讨论图像。这种图像理解由多模态 GPT-3.5 和 GPT-4 提供支持,它们将语言推理技能应用于各种图像。此功能在视觉上下文很重要的情况下特别有用,例如讨论一件艺术品或标识地标。
新的 ChatGPT 更新
OpenAI正在逐步部署这些功能,作为完善风险缓解并为未来更强大的系统做准备的战略的一部分。新的语音技术存在潜在的风险,例如冒充或欺诈,这就是为什么它专门用于语音聊天的原因。基于视觉的模型也带来了挑战,例如幻觉或误解,OpenAI在部署之前已经测试了这些挑战的风险。
在视觉功能的开发中,OpenAI与Be My Eyes合作,这是一款面向盲人和低视力人群的移动应用程序。这种合作帮助OpenAI了解视觉功能的用途和局限性,确保它尽可能有用和可访问。为了尊重个人隐私,还采取了技术措施来限制 ChatGPT 分析和直接陈述人的能力。
OpenAI对该模型的局限性是透明的,不鼓励未经适当验证的高风险用例,并建议非英语用户不要使用ChatGPT进行转录。这种透明度对于确保用户了解人工智能的功能和局限性并负责任地使用它至关重要。
在首次向Plus和Enterprise用户推出后,对新功能的访问将扩展到其他用户组,包括开发人员。这种分阶段推出的方法允许 OpenAI 在广泛提供这些功能之前收集反馈并进行必要的调整。
OpenAI向ChatGPT引入语音和图像功能代表了AI通信的重大进步。虽然这些功能为用户交互提供了新的机会,但它们也带来了潜在的风险和挑战。OpenAI 的逐步部署策略、与 Be My Eyes 的合作以及模型限制的透明度展示了一种深思熟虑的方法来管理这些风险,同时突破 AI 可以做的事情的界限。