什么是 Gemini 1.5 Pro AI 模型?
经过数月的等待,Gemini 1.5 Pro 型号似乎是来自谷歌稳定版的一款非凡的多模态 LLM。与构建 Gemini 1.0 系列型号的传统密集模型不同,Gemini 1.5 Pro 模型使用专家混合 (MoE) 架构。
有趣的是,OpenAI 也采用了 MoE 架构,用于卫冕之王 GPT-4 模型。
但这还不是全部,Gemini 1.5 Pro 可以处理 100 万个代币的庞大上下文长度,远远超过 GPT-4 Turbo 的 128K 和 Claude 2.1 的 200K 代币上下文长度。谷歌还在内部测试了多达 1000 万个代币的模型,而 Gemini 1.5 Pro 模型已经能够摄取大量数据,显示出强大的检索能力。
谷歌还表示,尽管 Gemini 1.5 Pro 比最大的 Gemini 1.0 Ultra 型号(可通过 Gemini Advanced 获得)小,但它的表现大致处于同一水平。因此,为了评估所有高大上的主张,好吗?
Gemini 1.5 Pro vs Gemini 1.0 Ultra vs GPT-4 比较
1. 苹果测试
在我之前的 Gemini 1.0 Ultra 和 GPT-4 比较中,谷歌在标准的 Apple 测试中输给了 OpenAI,该测试测试了 LLM 的逻辑推理。然而,新发布的 Gemini 1.5 Pro 型号正确地回答了这个问题,这意味着谷歌确实改进了 Gemini 1.5 Pro 型号的高级推理。
谷歌又回来了!和之前一样,GPT-4 给出了正确的答案,而 Gemini 1.0 Ultra 仍然给出了错误的答案,说你还剩下 2 个苹果。
I have 3 apples today, yesterday I ate an apple. How many apples do I have now?
获胜者:Gemini 1.5 Pro 和 GPT-4
2. 毛巾问题
在另一项评估Gemini 1.5 Pro高级推理能力的测试中,我问了一个流行的毛巾问题。可悲的是,这三款机型都出错了,包括 Gemini 1.5 Pro、Gemini 1.0 Ultra 和 GPT-4。
这些人工智能模型都没有理解问题的基本前提,也没有使用数学计算答案,得出了错误的结论。人工智能模型要像人类一样推理,还有很长的路要走。
If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?
Winner: None
3.哪个更重
然后,我运行了修改版的权重评估测试,以检查Gemini 1.5 Pro的复杂推理能力,并与GPT-4一起成功通过。然而,Gemini 1.0 Ultra再次未能通过测试。
Gemini 1.5 Pro 和 GPT-4 都正确地识别了这些单位,但没有深入研究密度,并表示一公斤包括羽毛在内的任何材料总是比一磅钢或任何东西重。谷歌干得好!
What's heavier, a kilo of feathers or a pound of steel?
获胜者:Gemini 1.5 Pro 和 GPT-4
4.解决数学问题
在Maxime Labonne的感谢下,我借用并运行了他的一个数学提示来评估Gemini 1.5 Pro的数学能力。好吧,Gemini 1.5 Pro以优异的成绩通过了测试。
我也在 GPT-4 上运行了相同的测试,它也得出了正确的答案。但我们已经知道 GPT 非常有能力。顺便说一句,我明确要求 GPT-4 避免使用 Code Interpreter 插件进行数学计算。不出所料,Gemini 1.0 Ultra 未能通过测试并给出了错误的输出。我的意思是,为什么我什至在这个测试中包括 Ultra?(叹了口气,转到下一个提示)
If x and y are the tens digit and the units digit, respectively, of the product 725,278 * 67,066, what is the value of x + y. Can you explain the easiest solution without calculating the whole number?
获胜者:Gemini 1.5 Pro 和 GPT-4
5. 遵循用户说明
接下来,我们进入了另一个测试,我们评估了Gemini 1.5 Pro是否能正确地遵循用户的指示。我们要求它生成 10 个以“苹果”一词结尾的句子。
Gemini 1.5 Pro 在这次测试中惨遭失败,只生成了三个这样的句子,而 GPT-4 产生了九个这样的句子。Gemini 1.0 Ultra 只能生成两个以“apple”一词结尾的句子。
generate 10 sentences that end with the word "apple"
胜利者: GPT-4
6. 大海捞针 (NIAH) 测试
Gemini 1.5 Pro 的主要特点是它可以处理 100 万个代币的巨大上下文长度。谷歌已经对 NIAH 进行了广泛的测试,并以令人难以置信的准确性获得了 99% 的检索率。所以自然而然地,我也做了一个类似的测试。
我拿了最长的维基百科文章之一(西班牙征服佩滕),它有近 100,000 个字符,消耗了大约 24,000 个代币。我在文本中间插入了一个针(一个随机语句),使 AI 模型更难检索该语句。
研究人员已经表明,如果将针插入中间,人工智能模型在较长的上下文窗口中表现更差。
Gemini 1.5 Pro 展示了它的肌肉,并以非常准确和上下文正确地回答了这个问题。但是,GPT-4 无法从大文本窗口中找到针。而且,通过Gemini Advanced提供的Gemini 1.0 Ultra目前支持大约8K代币的上下文窗口,远低于市场上声称的32K上下文长度。尽管如此,我们还是用 8K 代币运行了测试,但 Gemini 1.0 Ultra 未能找到文本语句。
所以,是的,对于长上下文检索,Gemini 1.5 Pro 型号是卫冕之王,谷歌已经超越了所有 AI 型号。
胜利者: Gemini 1.5 Pro
7. 多模态视频测试
虽然 GPT-4 是一个多模态模型,但它还不能处理视频。Gemini 1.0 Ultra 也是一个多模态模型,但谷歌尚未解锁该模型的功能。因此,您无法在 Gemini Advanced 上上传视频。
也就是说,我通过 Google AI Studio(访问)访问的 Gemini 1.5 Pro 还允许您上传视频,除了各种文件、图像,甚至由不同文件类型组成的文件夹。因此,我上传了 OnePlus Watch 2 评测的 5 分钟 Beebom 视频(1080p,65MB),这当然不是训练数据的一部分。
该模型花了一分钟来处理视频,并在 1,048,576 个代币中消耗了大约 75,000 个代币(不到 10%)。
现在,我向Gemini 1.5 Pro提出了问题,首先是视频的内容。我还要求它显示手表的所有关键功能。回答每个问题需要将近 20 秒。答案很准确,没有任何幻觉的迹象。接下来,我问审稿人坐在哪里,它给出了详细的答案。之后,我问表带是什么颜色的,它说:“绿色”。干的好!
最后,我让 Gemini Pro 生成了视频的文字记录,模型在一分钟内准确地生成了文字记录。Gemini 1.5 Pro的多模态功能让我大吃一惊。它能够成功地分析视频的每一帧,并智能地推断出含义。
这使得Gemini 1.5 Pro成为一个强大的多模态模型,超越了我们迄今为止所看到的一切。正如西蒙·威利森(Simon Willison)在他的博客中所说,视频是Gemini 1.5 Pro的杀手级应用。
胜利者: Gemini 1.5 Pro
8. 多模态图像测试
在最后的测试中,我测试了Gemini 1.5 Pro型号的视觉能力。我上传了 Google 演示(视频)的剧照,该演示是在 Gemini 1.0 发布期间展示的。在我之前的测试中,Gemini 1.0 Ultra 未能通过图像分析测试,因为 Google 尚未在 Gemini Advanced 上为 Ultra 型号启用多模态功能。
尽管如此,Gemini 1.5 Pro 型号还是很快产生了响应,并正确地回答了电影名称“早餐俱乐部”。GPT-4 也给出了正确的回应。Gemini 1.0 Ultra 根本无法处理图像,理由是图像上有人的脸,但奇怪的是事实并非如此。
获胜者:Gemini 1.5 Pro 和 GPT-4
专家意见:谷歌终于交付了 Gemini 1.5 Pro
在玩了一整天的Gemini 1.5 Pro之后,我可以说谷歌终于交付了。这家搜索巨头在 MoE 架构上开发了一种非常强大的多模态模型,与 OpenAI 的 GPT-4 模型不相上下。
它在常识推理方面表现出色,在某些情况下甚至比 GPT-4 更好,包括长上下文检索、多模态功能、视频处理和对各种文件格式的支持。不要忘记,我们谈论的是中型Gemini 1.5 Pro型号。当Gemini 1.5 Ultra型号在未来下降时,它将更加令人印象深刻。
当然,Gemini 1.5 Pro 仍处于预览阶段,目前仅供开发人员和研究人员测试和评估模型。在通过Gemini Advanced进行更广泛的公开推广之前,谷歌可能会添加额外的护栏,这可能会削弱模型的性能,但我希望这次不会出现这种情况。