您现在的位置是:主页 > 专栏 >
《揭秘 OpenAI 吹哨人离世:ChatGPT 背后的阴影》
发布时间:2024年12月16日 15时54分36秒 专栏 人已围观
简介“OpenAI 吹哨人”Suchir Balaji 被发现死于旧金山公寓,年仅 26 岁,当局裁定为自杀。他在库比蒂诺长大。...
被称为“OpenAI 吹哨人”的 Suchir Balaji,于 11 月 26 日被发现死在旧金山的一间公寓中,终年 26 岁,当局认定其死亡原因为自杀。
据外媒报道,Suchir Balaji 在加利福尼亚州库比蒂诺长大,一直对人工智能充满兴趣。
2013 年,DeepMind 的进步激发了他的兴趣,促使他进入加州大学伯克利分校攻读计算机科学,并于 2021 年毕业。同年,他加入 OpenAI,很快参与到 GPT-4 的开发工作中,负责帮助 OpenAI 收集和整理大量互联网数据,以训练 ChatGPT 大模型。
最初,他也像其他人一样被人工智能的前景所吸引,认为神经网络可以解决从治愈疾病到应对气候变化等一系列人类最关心的问题。可以说,对 Suchir Balaji 而言,人工智能不仅仅是一串串代码,更是一种炼金术、一种能将想象变为现实的工具。
但随着他目睹越来越多针对生成式人工智能的投诉案发生,他的观点逐渐发生了变化。
Suchir Balaji 在个人博客上详细阐述了自己的观点:OpenAI 在数据使用方面存在不合理之处,因为它未经许可使用受版权保护的材料来训练模型,侵犯了从程序员到记者等众多原创作者的知识产权。
这相当于在原创者作品的基础上生成了“替代品”,并夺走了属于原创者的利益。
马斯克在 X 上分享了这一新闻,图源:马斯克 X 账号截图
生成式 AI 为何侵权?
Balaji 的观点并非没有道理,无论是 ChatGPT 还是其他生成式 AI 应用,它们都是通过从互联网上抓取大量数据(包括受版权保护的内容)来构建算法模型。
我们总结一下类似 OpenAI 等大模型的常规训练过程就会发现,通常包括以下三个步骤:
步骤一:OpenAI 从互联网上收集大量文本,包括博客、文章和书籍等。其中部分数据是公开的,但大部分数据受版权保护。
步骤二:AI 分析这些数据,学习如何生成人类可理解的文本。
步骤三:当你向 ChatGPT 提问时,它不会告诉你训练时使用的原始数据,但它的回答通常会大量借鉴原始数据中的信息。
为什么说 OpenAI 会夺走属于原创者的利益呢?举个不太准确的例子,当你向 ChatGPT 发问后,如果它能生成类似知乎专业大 V 的回答,那么知乎可能就失去了存在的意义,大 V 们也不再有必要存在,整个生态就会坍塌。
回顾历史,OpenAI 曾针对 Balaji 的呼吁为自己辩护,声称使用的公开数据符合版权法。OpenAI 表示:“我们使用公开数据构建人工智能模型,这是合法合理的行为……而且这对创新者来说是必要的,对美国的科技竞争力也至关重要。”