阿里开源视频生成模型2VGen-XL
阿里之前11月发布了论文要开源的I2VGen-XL图像生成视频模型,终于发布了具体的代码和模型。演示里面没有人物大幅动作的视频。
I2VGen-XL包括两个阶段:
i) 基础阶段通过使用两个分层编码器保证连贯的语义,并保留输入图像的内容,
ii) 优化阶段通过整合额外的简短文本来增强视频的细节,并将分辨率提高到1280×720。
收集了约3500万个单镜头文本视频对和60亿个文本图像对来优化模型。 通过这种方式,I2VGen-XL可以同时提高生成视频的语义准确性、细节的连续性和清晰度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。