谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型

442 0 0

谷歌在Sora之前几个小时发布的内容，也非常离谱了，100万上下文长度可以支持1小时的视频内容、11小时的音频内容、3万行代码、70万字的文字。RAG基本上不存在了，同时他们还测试了1000万的上下文，错误率也不是很高。目前公开模型上下文长度最长的是Claude 2.1的20万Token。

Gemini 1.5基于Transformer和MoE架构的研究和工程创新，提高了训练和服务的效率。
Gemini 1.5 Pro是一个中等规模的多模态模型，适用于多种任务，并引入了在长上下文理解方面的实验性特性。
Gemini 1.5 Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini 1.0 Pro，并且与1.0 Ultra在同样的基准测试上表现相当。
此外，Gemini 1.5 Pro在进行长上下文窗口的测试中表现出色，在NIAH评估中，它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。

里面还举了一些可以提现上下文能力的例子：

它可以完整理解高达80 万 Token 的 Three.js 代码以及相关文档库。并根据提示找到对应的代码和示例完成教学和编码任务。
多模态演示，可以从一部有 60 万 Token 的电影中精确的找到截图的时间戳以及所描述的内容。
维克多·雨果的五卷本长篇小说《悲惨世界》（共1382页，含有大约732,000个Token）。
它的多模态（multimodal）处理能力可以处理粗略地画出一个场景，然后询问“请看这幅图画中的情景。这个场景出现在书的哪一页？”

谷歌还像泄露的文件描述的一样将Bard更名为Gemini，同时推出了Gemini Advanced付费会员计划，可以使用Ultra 1.0模型。

Gemini Advanced 现已在 150 多个国家和地区提供英语版本。

可以在安卓的Gemini应用和iOS 的谷歌应用使用Gemini Advanced。

同时Google Assistant 语音功能将会由Gemini驱动，这个真是大招，直接吊打 siri 。

Gemini 开始在美国的 Android 和 iOS 手机上推出英语版本，并将在未来几周内全面推出。从下周开始，将能够在更多地点以英语、日语和韩语访问它，并且即将推出更多国家/地区和语言。

公告地址：https://blog.google/products/gemini/bard-gemini-advanced-app/