上海 AI 实验室发布新一代书生·视觉大模型

上海人工智能实验室(上海AI实验室)宣布联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型(InternVL)。

新一代“书生·视觉基础”模型的视觉编码器参数量达60亿(InternVL-6B),首次提出了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。

InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务,还可以识别和解读复杂页面中的信息,甚至解决其中的数理问题。

目前,InternVL全系列模型、代码均已开源,并提供Demo试用。

InternVL-6B具备纯视觉感知、图文检索、图文生成、图文多模态生成和对话等关键能力。谷歌ViT-22B是目前被公认为最强大的专注视觉的基础模型(非开源)。InternVL开源模型以不到1/3的参数量,在纯视觉任务(如ImageNet、ADE20K等)和图生文任务(如NoCaps、MS COCO等)上逼近或超过谷歌ViT-22B。

在视觉感知、图文检索、图文多模态生成和对话等30余个视觉基准测试上,InternVL-6B取得了开源社区的最优性能,超过了Meta、谷歌、微软、LAION等机构的同类开源模型。

在TinyLVLM 、MMBench等多模态大模型评测上,InternVL-6B取得了优秀的性能。其中,在MMBench-dev上,InternVL-6B达到76.6,虽然综合能力仍有待提高,但个别性能超越了GPT-4V(75.1)和Gemini(75.2)。

InternVL-6B具备强大的视觉表征和理解能力,尤其表现在面对信息复杂的图片时,模型仍可对细节进行精准捕捉,不仅可在图片或实际场景的复杂画面中捕捉细微的视觉信息,还可从复杂排版的图文页面中整合、解读信息,或辨别伪装外观的物体。

未经允许不得转载:岩猫星空网 » 上海 AI 实验室发布新一代书生·视觉大模型