点击排行

本栏推荐

发布时间：2025年01月04日 14时38分01秒分析人已围观

简介DeepSeek-v3大模型以1/11的算力成功训练出超过Llama 3的开源模型，引起了广泛关注。与此同时，雷军开出千万年薪挖角DeepSeek研究员罗福莉的传闻，更加凸显了DeepSeek在AI领域的影响力。...

DeepSeek-v3模型的问世，以1/11的算力超越了Llama 3，令整个AI行业为之震惊。

紧接其后，“雷军以千万年薪引进DeepSeek研究员罗福莉”的传言，进一步引起了业界对DeepSeek人才的广泛关注。

如今，不仅是科技圈，全网用户都对此充满好奇，甚至在小红书上出现了对该团队的讨论，询问这个团队究竟是什么样的存在？

在国际上，也有人将创始人梁文锋的访谈翻译成英文并附注释，以期揭示这家公司的崛起之路。

量子位整理资料后发现，DeepSeek团队的最大特色在于年轻。

特别是来自清华和北大的应届生和在读生在团队中非常活跃。

其中部分成员在2024年同时在DeepSeek进行研究，并且刚刚获得博士学位论文的相关奖项。

有些人参与了DeepSeek LLM v1到v3的完整开发，有些则是在短期实习期间作出显著的贡献。

在DeepSeek的新型注意力机制MLA和GRPO强化学习对齐算法等诸多关键创新中，几乎都是年轻研究者提出的。

DeepSeek的核心成员揭秘

2024年5月发布的DeepSeek-V2，是该大模型公司成功破圈的重要里程碑。

其核心创新之一是在Transformer架构中引入了一种新型注意力机制，即用MLA（Multi-head Latent Attention）替代传统的多头注意力，从而显著降低计算资源和推理显存的需求。

在这一创新的背后，高华佐和曾旺丁做出了至关重要的贡献。

高华佐知识背景非常低调，已知他是北京大学物理系的毕业生。

在“大模型创业六小强”之一的阶跃星辰的专利信息中，可以发现他的名字，目前尚不确定这是否是同一位。

而曾旺丁则来自北邮，其研究生导师是北邮的人工智能与网络搜索教研中心主任张洪刚。

在DeepSeek-V2的开发中，GRPO也是一项重要成果。

在DeepSeek-V2发布前三个月，DeepSeek-Math问世，并在其中引入了GRPO（Group Relative Policy Optimization）。