EVA-CLIP-18B:性能最强的开源CLIP视觉大模型

近日,智源视觉团队成功训练并发布世界最大最强的 CLIP 模型 EVA-CLIP-18B,拥有 180 亿参数。EVA-CLIP-18B 大幅突破了图像、视频和 3D 上的零样本识别能力,在 27 个图像分类基准测试上取得了80.7%的零样本准确率,这一成绩显著优于其前代模型 EVA-CLIP-5B 和 Google, Apple 等公司取得 SOTA 的其他开源 CLIP 模型。

EVA-CLIP-18B 的成功训练进一步验证了 EVA 系列 weak-to-strong 规模扩增策略的潜力和有效性。团队将公开 EVA-CLIP 18B 模型的权重和训练代码,为未来的计算机视觉和视觉-语言多模态研究提供强大的视觉基础模型。

技术亮点