您现在的位置是:主页 > 分析 >
清北应届生组成的DeepSeek团队引发广泛关注
发布时间:2025年01月04日 14时38分01秒 分析 人已围观
简介DeepSeek-v3大模型以1/11的算力成功训练出超过Llama 3的开源模型,引起了广泛关注。与此同时,雷军开出千万年薪挖角DeepSeek研究员罗福莉的传闻,更加凸显了DeepSeek在AI领域的影响力。...
DeepSeek-v3模型的问世,以1/11的算力超越了Llama 3,令整个AI行业为之震惊。
紧接其后,“雷军以千万年薪引进DeepSeek研究员罗福莉”的传言,进一步引起了业界对DeepSeek人才的广泛关注。
如今,不仅是科技圈,全网用户都对此充满好奇,甚至在小红书上出现了对该团队的讨论,询问这个团队究竟是什么样的存在?
在国际上,也有人将创始人梁文锋的访谈翻译成英文并附注释,以期揭示这家公司的崛起之路。
量子位整理资料后发现,DeepSeek团队的最大特色在于年轻。
特别是来自清华和北大的应届生和在读生在团队中非常活跃。
其中部分成员在2024年同时在DeepSeek进行研究,并且刚刚获得博士学位论文的相关奖项。
有些人参与了DeepSeek LLM v1到v3的完整开发,有些则是在短期实习期间作出显著的贡献。
在DeepSeek的新型注意力机制MLA和GRPO强化学习对齐算法等诸多关键创新中,几乎都是年轻研究者提出的。
DeepSeek的核心成员揭秘
2024年5月发布的DeepSeek-V2,是该大模型公司成功破圈的重要里程碑。
其核心创新之一是在Transformer架构中引入了一种新型注意力机制,即用MLA(Multi-head Latent Attention)替代传统的多头注意力,从而显著降低计算资源和推理显存的需求。
在这一创新的背后,高华佐和曾旺丁做出了至关重要的贡献。
高华佐知识背景非常低调,已知他是北京大学物理系的毕业生。
在“大模型创业六小强”之一的阶跃星辰的专利信息中,可以发现他的名字,目前尚不确定这是否是同一位。
而曾旺丁则来自北邮,其研究生导师是北邮的人工智能与网络搜索教研中心主任张洪刚。
在DeepSeek-V2的开发中,GRPO也是一项重要成果。
在DeepSeek-V2发布前三个月,DeepSeek-Math问世,并在其中引入了GRPO(Group Relative Policy Optimization)。