字节跳动发布视频生成基础大模型 Seaweed-7B

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。

https://seaweed.video/

令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

据官方介绍,Seaweed-7B 结合了变分自编码器(VAE)和潜在扩散变换器(DiT)。其中,VAE 负责高效的训练和推理,而 DiT 则通过扩散模型生成图像和视频,显著提高了生成的质量与效率。

另外,团队为了提升 Seaweed-7B 的训练效率,采用了多阶段训练策略和 GPU 资源的优化调配。预训练阶段通过低分辨率图像开始,逐步引入高分辨率视频训练,提升了模型的泛化能力。此外,在后训练阶段,通过监督微调和基于人类反馈的强化学习(RLHF)进一步提高了生成视频的美学质量和运动一致性。

目前,Seaweed-7B 相关报告已公开:https://seaweed.video/seaweed.pdf

未经允许不得转载:岩猫星空网 » 字节跳动发布视频生成基础大模型 Seaweed-7B