书生·万卷:2TB多模态语料库
上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布 “书生・万卷” 1.0 多模态预训练语料。“书生・万卷” 1.0 目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过 2TB。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布 “书生・万卷” 1.0 多模态预训练语料。“书生・万卷” 1.0 目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过 2TB。