苹果发布开源多模态大语言模型 Ferret

科技媒体 VentureBeat报道称,苹果公司在 2023 年 10 月低调发布了一款名为 Ferret 的开源多模态大语言模型,这是苹果与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码和权重(仅限研究用途,不包含商业许可),但并未引起太多关注。

随着近期Mistral 的开源 MoE 模型成为焦点,以及谷歌的 Gemini 模型即将在 Pixel Pro 上亮相,未来还将进入 Android 系统,越来越多人开始关注本地 LLMs 为小型设备提供支持的潜力。

近日,专注于医疗领域开源 AI 的欧洲非营利组织负责人 Bart de Witte 在 X 平台上分享了他的惊讶:“我之前竟然没发现这个。” 他表示,“苹果在 10 月份加入了开源 AI 圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺,巩固了它在多模态 AI 领域的领先地位…… 另外,我很期待有一天 Local Large Language Models (LLLMs) 能作为重新设计的 iOS 的一部分,在我的 iPhone 上运行。”

苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。

简单地说,该模型可以分析图像上绘制的区域,确定其中对用户查询有用的元素,并将其识别出来,在检测到的元素周围绘制一个边界框。然后,它就可以将识别出的元素用作查询的一部分,并以典型的方式作出响应。

例如,高亮显示图像中的动物图片并询问 LLM 这是什么动物,LLM 可以确定该动物的种类,并确定用户所指的是动物群中的某只动物。然后,它还可以利用图像中检测到的其他项目的上下文,提供进一步的回复。

GitHub:https://github.com/apple/ml-ferret 论文:https://arxiv.org/abs/2310.07704

Ferret 拥有 (7B, 13B) 两个版本,为了增强 Ferret 模型的能力苹果特别收集了一个 GRIT 数据集。它包含了 1.1M 个样本,这些样本包含了丰富的层次空间知识。

尽管苹果以往以其产品和技术的封闭性著称,但现在它通过发布开源LLM模型,正逐渐改变这一形象,展现出其在AI领域的活跃参与和创新精神。这不仅对苹果自身,也对整个AI领域来说,都是一个值得关注的重要发展方向。

VentureBeat 撰稿人 Ben Dickson 写道:“2023 年最让你意外的人工智能进展是什么?对我来说,是苹果发布了开源 LLMs(虽然是非商业许可)。”他指出,苹果一贯以来是封闭系统、围墙花园开发、保密、严格的保密协议、发布极少细节、并为其产品申请每一项小的专利的代表。