GPT-4V Vision 和 Google RT-X 机器人学习

人工智能（AI）和机器人世界正在不断发展，最近的文件详细介绍了谷歌的RT-X，以及备受期待的新ChatGPT Vision功能的推出，处于这些进步的最前沿。这些技术正在突破可能的界限，利用多样化的数据和复杂的算法来改进机器人模型，并以前所未有的方式解释视觉数据。

本快速指南将概述谷歌、Microsoft和OpenAI正在开发的技术，将人工智能和机器人学习提升到新的水平。Google DeepMind团队解释了更多：

“我们正在推出一套新的资源，用于跨不同机器人类型或实施例的通用机器人学习。我们与来自34个学术实验室的合作伙伴一起汇集了来自22种不同机器人类型的数据，以创建Open X-Embodiment数据集。我们还发布了RT-1-X，这是一种源自RT-1并在我们的数据集上进行训练的机器人变压器（RT）模型，显示了许多机器人实施例之间的技能转移。

谷歌的RT-X是多样化数据在增强机器人模型方面的力量的一个典型例子。RTX Endeavor是rt2模型的演变，已经根据来自不同大学和大陆的大量数据进行了训练。这种多样化的数据集使机器人能够理解复杂的命令并执行各种任务，包括拾取、移动、推动、放置、滑动和导航。使用各种数据不仅提高了机器人的能力，而且还使其在一系列任务中优于专业机器人。此后，rt2型号已升级为rt1 X和rt2 X型号，其性能继续优于专业型号。

RTX Endeavor的功能超越了简单的任务。该技术已应用于机器人手臂和四足动物，展示了其多功能性。这种方法反映了在大量网络规模文本数据上对大型语言模型的训练，这表明类似的技术可以应用于机器人技术。

GPT-4V（ision）

虽然RTX Endeavor在机器人技术方面取得了长足的进步，但GPT-4V Vision正在彻底改变AI理解和解释视觉数据的方式。该型号在视觉问答方面优于 GPT 4 Vision，展示了其高级功能。Microsoft关于大型多模式模型的报告强调了GPT Vision令人印象深刻的人类水平能力。该模型可以识别名人、地标、菜肴和医学图像等。开放人工智能解释

“带视觉的 GPT-4 （GPT-4V）使用户能够指示 GPT-4 分析用户提供的图像输入，这是我们广泛提供的最新功能。将其他模式（如图像输入）纳入大型语言模型（LLM）被一些人视为人工智能研究和开发的关键前沿。

多模式LLM提供了扩大纯语言系统影响的可能性，具有新颖的界面和功能，使他们能够解决新任务并为用户提供新颖的体验。在这个系统卡中，我们分析了GPT-4V的安全性能。我们在 GPT-4V 安全方面的工作建立在为 GPT-4 所做的工作之上，在这里，我们更深入地探讨了专门为图像输入所做的评估、准备和缓解工作。

然而，GPT-4V Vision 并非没有局限性。模型可能会出错，例如误解数据或生成随机数。它还在精确的坐标上挣扎，偶尔会出现幻觉。尽管存在这些挑战，但 GPT Vision 的潜在用例是巨大的。该模型可用于各种应用，包括阅读学术论文、分析流程图和识别人脸情绪。它甚至可以通过图像导航房屋，并提出一系列操作来执行任务。

这些技术在人工智能和机器人技术中的未来影响是重大的。随着这些模型的不断发展和改进，它们可能会在各个领域发挥越来越重要的作用。该报告表明，GPT Vision的能力可以随着从一开始就设计为多式联运的模型的开发而显着提高。这将使模型能够更好地理解和解释各种数据，进一步增强其能力。

GPT-4V Vision 和 Google RT-X 机器人学习

GPT-4V（ision）

如何排查谷歌Bard的问题

谷歌Pixel 8 Pro功能是智能手机的“第一”

相关文章

你或许会喜欢