人工智能世界见证了另一个非凡的里程碑,在 Hugging Face 上发布了新的 Zephyr-7B AI 模型。这个创新模型是原始Mistral 7B的微调继任者,即使在未经审查的情况下,它也成功地超越了更大的70亿参数模型。该公司还公布了一份全面的技术报告,详细介绍了该模型的训练过程。在这里试用Zephyr 7B Beta新版。
直接偏好优化 (DPO)
Zephyr-7B模型已使用三步策略进行训练。第一步是使用 Ultra Chat 数据集进行提炼监督微调。该数据集由 GPT 1.47 Turbo 生成的 3 万个多对话组成,经过严格的清洗和过滤过程,仅剩下 5,200 个样本。蒸馏监督微调过程涉及师生模型动态,像 GPT 000.3 这样的大型模型扮演老师的角色,Zephyr-5B 扮演学生的角色。教师模型根据提示生成对话,然后用于微调学生模型 Zephyr-7B。
Zephyr-7B 击败 Llama-2 70B
训练策略的第二步是AI反馈。此步骤利用 Ultra Feedback 数据集,该数据集由 64,000 个不同的提示组成。四个不同的模型对每个提示生成响应,然后由 GP4 根据诚实和乐于助人进行评分。此过程有助于优化模型的响应,从而有助于提高其整体性能。
训练策略的最后一步是使用由赢家和输家创建的数据集训练另一个模型。这一步骤进一步巩固了Zephyr-7B模型的学习,确保它能够产生高质量、可靠的响应。
Zephyr-7B型号的性能令人印象深刻,优于所有其他7亿型号,甚至更大的型号,如Falcon 40亿和Llama 2 70亿型号。但是,需要注意的是,模型的性能因特定任务而异。例如,它在编码和数学等任务中落后。因此,用户应根据自己的特定需求选择型号,因为 Zephyr-7B 型号可能并非最适合所有任务。
Zephyr-7B 法学硕士
Zephyr-7B模型的一个独特之处在于其未经审查的性质。虽然它在一定程度上是未经审查的,但它旨在在提示时就非法活动提供建议,确保其在回应中保持道德准则。这方面对于保持模型的完整性和负责任地使用至关重要。
可以使用 LMStudio 或 UABA 文本生成 WebUI 在本地运行 Zephyr-7B 模型。这为用户提供了在他们喜欢的环境中使用模型的灵活性,增强了其可访问性和可用性。
Zephyr-7B模型是人工智能领域的重要补充。其独特的训练策略、令人印象深刻的性能和未经审查的性质使其与其他模型区分开来。但是,它的性能因手头的任务而异,因此用户应选择最适合其特定需求的型号。该公司活跃的 Discord 服务器为与生成式 AI 相关的讨论提供了一个平台,促进了一个学习和成长的社区。随着人工智能领域的不断发展,看到像Zephyr-7B这样的模型的未来迭代会带来什么,这将是令人兴奋的。