幻方量化开源国内首个 MoE 大模型:DeepSeekMoE

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,全新架构,免费商用。

今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为“深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代码、论文均已同步发布。

据介绍,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均领先:

混合专家模型 (Mixed Expert Models,简称 MoEs)是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。

MoE 核心组成:

官方称 DeepSeekMoE 是自研的全新 MoE 框架,主要包含两大创新:

点此查看详情。