豆包文生图技术报告发布,数据处理、预训练、RLHF 全流程公开

豆包大模型团队发布文生图技术报告,首次公开 Seedream 2.0 图像生成模型技术细节,覆盖数据构建、预训练框架、 后训练 RLHF 全流程。报告针对 Seedream 2.0 原生中英双语理解、文字渲染、高美感、分辨率与画幅变换等特性的实现,进行了具体介绍。

豆包大模型团队文生图模型 Seedream 2.0 于 2024 年 12 月初在豆包 APP 和即梦上线,相比 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型,该模型更好解决了文本渲染能力欠佳、对中国文化理解不足等诸多实际问题,支持原生中英双语,美感、指令遵循等能力有整体提升。

Seedream 2.0 采用了全新的预训练架构设计,其整体框图如下:

根据介绍,团队为了较全面客观地评估模型,围绕图文匹配度、结构准确率、美感等基础维度,严格构建了 Bench-240 评测基准。通过测试发现 Seedream 2.0 面向英文提示词,其生成内容的结构合理性、文本理解准确性高于主流模型。

中文综合能力同样突出,其生成与渲染文字可用率达 78%,完美响应率为 63%,高于业界目前其他模型。

公告称,此次技术报告的发布,旨在推动图像生成技术进一步发展,加强业内交流。展望未来,团队将持续探索更高效地 Scaling 模型参数及数据的创新技术,进一步提升模型的性能边界。

完整报告详情可查看:

未经允许不得转载:岩猫星空网 » 豆包文生图技术报告发布,数据处理、预训练、RLHF 全流程公开