MPT-7B一个新的开源、商业可用LLM标准

工具软件2年前 (2023)发布 AI观察员

528 0 0

MPT-7B是MosaicML基金会系列的最新产品，一个从头开始训练的、基于1T文本和代码的Transformer。MPT-7B在MosaicML平台上进行了9.5天的训练。

开源可商用，能力与LLaMA-7B相当
有三个微调模型，除了基本的MPT-7B之外：MPT-7B-Instruct、MPT-7B-Chat和MPT-7B-StoryWriter-65k+
其中最后一个写作模型支持65k的上下文！是GPT4的两倍

MPT-7B Base

MPT-7B Base是一种具有6.7B参数的解码器式变压器。它接受了由MosaicML数据团队策划的1T文本和代码标记的训练。这个基本模型包括用于快速训练和推理的FlashAttention和用于对长上下文长度进行微调和外推的ALiBi。

License: Apache-2.0
HuggingFace: https://huggingface.co/mosaicml/mpt-7b

MPT-7B-StoryWriter-65k+

MPT-7B-StoryWriter-65k+是一种设计用于读取和编写具有超长上下文长度的故事的模型。它是通过在books3数据集的过滤小说子集上对上下文长度为65k令牌的MPT-7B进行微调而构建的。在推理时，由于ALiBi, MPT-7B-StoryWriter-65k+甚至可以推断超过65k个令牌，并且我们已经在A100-80GB gpu的单个节点上演示了长达84k个令牌的代。

License: Apache-2.0
HuggingFace: https://huggingface.co/mosaicml/mpt-7b-storywriter