质量更高、视觉效果更好!智谱开源CogVideoX-5B视频生成模型

[db:摘要]

魔搭ModelScope社区近日宣布,其国产开源Sora视频生成模型CogVideoX的更大尺寸版本——CogVideoX-5B已正式开源。

与之前的CogVideoX-2B相比,新模型在视频生成的质量和视觉效果上都有显著提升。

微信截图_20240828081448.png

CogVideoX-5B是一个基于大规模DiT(diffusion transformer)模型,专为文本到视频生成任务设计。模型采用了3D因果变分自编码器(3D causal VAE)和专家Transformer技术,通过结合文本和视频嵌入,使用3D-RoPE作为位置编码,并利用3D全注意力机制进行时空联合建模。

此外,模型还采用了渐进式训练技术,能够生成具有显著运动特征、连贯且长时间的高质量视频。

模型链接:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/16697

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 2024年8月27日 下午5:01
下一篇 2024年8月28日 上午8:29

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注