GPT-4 是多模态的，我们可以合理地预测 GPT-4 能够做什么

工具软件3年前 (2023)发布 AI观察员

496 0 0

*如果* GPT-4 是多模态的，我们可以合理地预测 GPT-4 *可能*能够做什么，鉴于微软之前的工作 Kosmos-1：

– 视觉智商测试：是的，人类参加的测试！
– 无 OCR 阅读理解：输入屏幕截图、扫描文档、路牌或任何包含文本的像素。直接对内容进行推理，无需显式 OCR。这对于解锁多媒体网页上的 AI 驱动的应用程序或来自现实世界摄像头的“野外文本”非常有用。
– 多模式聊天：就图片进行对话。您甚至可以在中间提供“后续”图像。
– 广泛的视觉理解能力，如字幕、视觉问答、物体检测、场景布局、常识推理等。
– 音频和语音识别（？？）：在 Kosmos-1 论文中没有提到，但 Whisper 已经是一个 OpenAI API，应该很容易集成。 GPT-4 是多模态的，我们可以合理地预测 GPT-4 能够做什么

注意：这些预测是基于据称微软德国首席技术官安德烈亚斯布劳恩所说的话。它们可能准确也可能不准确（这就是我称之为“预测”的原因）。但 Kosmos-1 非常真实且坚如磐石。它提供了 GPT-4 或微软接下来将提供的任何人工智能服务的一瞥。我很难相信 Kosmos-1 会留在实验室而不成为产品。

无论如何，请为多模式 API 做好准备——它们迟早会出现！

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

MotionCtrl：一个统一灵活的视频生成运动控制器

AI观察员

436

谷歌浏览器：打开标签组中文件夹的所有书签

AI观察员

422

如何通过网站测试您的收听设备的音频质量

AI观察员

393

Carrot Weather 增加了扩展的雷达和警报，并有机会使用 ChatGPT 驱动的 snark

AI观察员

421

网传苹果正在开发自己的大语言模型 AppleGPT

AI观察员

351

如何在 Microsoft Word 中将单词保持在同一行

AI观察员

475

天猫U特购 京东优惠购 京东优惠天猫优惠