标签:模型
FaceChain是一个可以用来打造个人数字形象的深度学习模型工具
FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低三张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在gradio的...
HeyGen实现流程中的语音克隆 XTTS v2
HeyGen实现流程中的语音克隆,现在有最佳开源方案了:XTTS v2,单样本即可克隆语音。现在已经能实现:让一个明星的采访视频,变成他讲述任意小故事(内容可以...
Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型
Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型 该模型是由Hugging Face团队开发,它在Whisper核心功能的基础上进行了优化和简化,体积缩小了50%...
阿里云研发大规模音频语言模型Qwen-Audio
Qwen-Audio(Qwen Large Audio Language Model)是阿里云提出的大模型系列Qwen(简称统一前文)的多模态版本。Qwen-Audio 接受多种音频(人类语音、自然声音...
Stability AI 发布其最新的Stable Video Diffustion 视频开源模型
Stability AI 发布其最新的Stable Video Diffustion 视频开源模型!支持: - 文本到视频 - 图像到视频 - 14 或 25 帧,576 x 1024分辨率 - 多视图生成 -...
HeyGen实现流程中的语音克隆,现在有最佳开源方案了:XTTS v2
HeyGen实现流程中的语音克隆,现在有最佳开源方案了:XTTS v2,单样本即可克隆语音。现在已经能实现:让一个明星的采访视频,变成他讲述任意小故事(内容可以...
Drivable 3D Gaussian Avatars-Meta
Drivable 3D Gaussian Avatars-Meta Meta 发布了一种新的 3D 生成技术 D3GA,用高斯喷涂技术渲染的3D可控制人体模型。 之前的技术训练期间需要精确的3D标记,...
DeepMind 发布了一个音乐生成模型Lyria
DeepMind 发布了一个音乐生成模型Lyria DeepMind 发布了一个音乐生成模型Lyria,与其他模型不同的是这个模型不止可以生成音乐也可以生成搭配音乐的人声。同时...
LLaMA Factory 可让您轻松微调和训练大型语言模型 (LLM)
如果你正在寻找轻松微调和训练大型语言模型 (LLM) 的方法,你可能会对一个名为 LLaMA Factory 的新项目感兴趣。它结合了 LLaMA Board,这是一种用于训练和...
OpenAI CEO谈GPT-5透露微软加大投资计划
OpenAI CEO Sam Altman透露正积极寻求来自最大投资者Microsoft的进一步资金支持。公司CEO Sam Altman认为,这将推动他创造人工通用智能(AGI)—即与人类智能...