Mistral AI开源MoE模型Mixtral-8x7b

497 0 0

8号的晚上Mistral AI的推特突然放出了一个磁力链接，下载下来以后是一个87G的模型文件。

Mistral AI 成立于 2023 年 5 月，是一家法国人工智能初创公司，也是为数不多来自欧洲的大模型开源领域的明星团队。

Shubham Saboo 总结了 Mixtral-8x7b 已知的一些信息，以及MoE架构是什么还有就是这个MoE架构和GPT-4传言的MoE架构有什么区别。

谷歌凭借其精心编排的演示视频令 AI 社区敬畏，但现在这段视频正受到广泛批评。
另一方面，开源 AI 创业公司 Mistral AI 发布了一个包含 8 个 7B 级别专家的 MoE 模型。

专家混合模型（MoE）是什么？

专家混合（MoE）是用于提高大语言模型效率和准确度的技术。这种方法将复杂任务划分为更小、更易管理的子任务，每个子任务由专门的小型模型或“专家”负责。

以下是简要说明：

专家层：这些是在特定领域训练有素的小型神经网络。每个专家以其独特专长的方式处理相同的输入。
门控网络：这是 MoE 架构的决策核心。它判断哪个专家最适合处理特定输入。网络为输入数据与每个专家的兼容性打分，然后根据这些得分确定每个专家在任务中的角色。
这些组成部分共同确保正确的专家处理正确的任务。门控网络有效地将输入引导至最合适的专家，而专家则专注于他们擅长的领域。这种合作培训使得整体模型更加多才多艺、能力更强。
关于 Mistral 新 MoE 的详情（来自 Reddit）在对每个 Token 进行推理时，只有 2 个专家被使用。
这一信息可以从模型的元数据中获得：
{“dim”: 4096, “n_layers”: 32, “head_dim”: 128, “hidden_dim”: 14336, “n_heads”: 32, “n_kv_heads”: 8, “norm_eps”: 1e-05, “vocab_size”: 32000, “moe”: {“num_experts_per_tok”: 2, “num_experts”: 8}

与 GPT-4 的比较Mistral 的 8x7B 模型采用了与 GPT-4 相似的架构，但规模更小：

◆总共 8 个专家模型，而不是 16 个（减少了一半）
◆每个专家拥有 7B 参数，而不是 166B（减少了 24 倍）
◆总共约 42B 参数，而非 1.8T（减少了 42 倍）
◆与原版 GPT-4 相同的 32K 上下文限制

你现在可以在Poe或者Perplexity体验部署好的 Mixtral-8x7b 模型：https://labs.perplexity.ai/
Mistral AI开源MoE模型Mixtral-8x7b