什么是TII Falcon 180B开源语言模型？

工具软件3年前 (2023)发布 AI观察员

355 0 0

技术创新研究所（TII）通过引入名为Falcon的新大型语言模型（LLM）为开源社区做出了重大贡献。该模型拥有令人印象深刻的 180 亿个参数，是一个生成式 LLM，提供各种版本，包括 Falcon 180B、40B、7.5B 和 1.3B 参数 AI 模型。

当猎鹰40B推出时，它迅速获得了世界顶级开源AI模型的认可。这个版本的猎鹰，有40亿个参数，是在惊人的一万亿个代币上训练的。在推出后的两个月里，猎鹰40B在Hugging Face的开源大型语言模型（LLM）排行榜上一直位居榜首。Falcon 40B的与众不同之处在于，它完全免版税，重量是革命性的举措，有助于使AI民主化并使其成为更具包容性的技术。

猎鹰40B LLM是多语言的，适用于多种语言，包括英语，德语，西班牙语，法语，意大利语，葡萄牙语，波兰语，荷兰语，罗马尼亚语，捷克语和瑞典语。这个基础LLM作为一个通用的基本模型，可以微调以满足特定的要求或目标。

猎鹰180B开源法学硕士

Falcon 180B是具有180亿个参数的超强大语言模型，经过了3.5万亿个代币的训练。它目前在预训练的开放大型语言模型的拥抱脸排行榜上名列前茅，可用于研究和商业用途。该模型在推理、编码、熟练程度和知识测试等各种任务中表现出色，甚至优于 Meta 的 LLaMA 2 等竞争对手。

在闭源模型中，Falcon 180B仅次于OpenAI的GPT 4，性能与Google的PaLM 2相当，后者为Bard提供动力，尽管其尺寸仅为模型的一半。这证明了模型的质量，因为LLM对他们训练的数据特别敏感。TII 团队构建了一个自定义数据管道，使用广泛的过滤和重复数据删除来提取高质量的预训练数据，并在样本级别和字符串级别实施。

为了鼓励该模型的创新使用，猎鹰40B发起了科学家、研究人员和创新者的“提案征集”。最特殊的用例将获得训练计算能力的投资，以研究强大的模型来塑造变革性的解决方案。值得注意的是，该模型仅使用了 GPT-75 训练计算的 3%，龙猫 AI 的 40% 和 PaLM-80B 的 62%。

猎鹰开发的显着因素之一是训练数据的质量。为Falcon 40B收集的预训练数据是近80万亿个代币，从各种来源收集，包括公共网络爬虫（~<>%），研究论文，法律文本，新闻，文学和社交媒体对话。

在 3.5 万亿个代币上接受培训

Falcon模型的训练过程涉及同时使用4096个GPU，每小时总计约7万个GPU。Falcon的培训数据集由网络数据组成，并辅以一系列精选内容，包括对话、技术论文、维基百科和一小部分代码。该模型已针对各种对话和教学数据集进行了微调，但不包括托管使用。

尽管性能令人印象深刻，但猎鹰模型没有关于最近事件的最新信息。然而，猎鹰模型的发布被视为开源领域的重大进步，在各种基准测试上优于其他模型，如Llama 2，Stable LM，Red Pajama，NPT等。该模型比Llama 2大5.2倍，在各种基准测试中优于Llama 2，OpenAI的GPT 3.5模型和Google的Palm。这使其成为研究和商业用途的强大工具，也是对开源社区的重大贡献。