报错家门并非孤例 DeepSeek动了谁的奶酪？

从技术角度来说，这种“幻觉”现象，很可能是训练数据受到了污染。大型语言模型 (LLM) 的训练过程，本质上是对海量文本数据（即“语料”）进行学习和模仿。这些语料通常来源于互联网的公开信息，涵盖新闻、文章、博客、论坛等各种文本。模型通过学习这些语料中的语言模式、逻辑结构和知识信息，进而获得生成类似文本的能力。

然而，如果在训练数据中混入了大量来自某个特定模型（例如 GPT-4）的输出内容，新模型就可能学习到该模型的“说话方式”甚至“思维模式”，从而在特定情况下表现出与该模型类似的特征，产生所谓的“幻觉”。

DeepSeek V3 很可能就遭遇了这种情况。互联网上充斥着大量由 GPT-4 生成的文本内容，这些内容或许在无意间被当作“语料”收录进了 DeepSeek V3 的训练数据中，最终导致其出现“幻觉”。其实 DeepSeek 并非个例，Google 的 Gemini 此前也曾出现过类似问题，会称自己是“问心一言”。（当然，可能还有其他原因）

但我的重点不是这个，而是由训练语料，引来的一个行业问题：未来如何更好地对AI内容进行版权确定和使用。毕竟，现有的版权法难以完全适用于AI生成的内容，其“独创性”在法律上仍存争议，传统内容创造者的利益也会受到影响：《纽约时报》起诉OpenAI和微软等诉讼反映了这种焦虑。

别的不知道，但在这个过程中，我这样无良自媒体的“奶酪”，肯定会无声消融。

“Created by Humans”

Scribd 联合创始人 Trip Adler 的新项目“Created by Humans”做了一个尝试：这是一个欧美版的“视觉中国”，让创作者把内容的版权卖给各 AI 公司。方法类似当年 Spotify 解决音乐盗版问题的思路：通过构建新的商业模式来平衡各方利益。

当然，“Created by Humans”能否取得成功，还有待时间的检验。以及，该平台目前主要针对的是图书版权，而 AI 模型的训练数据还包括图片、音频、视频等多种类型的内容。如何将这个模式扩展到其他类型的内容，也是一个需要解决的问题。

尽管如此，“Created by Humans”的出现仍然具有重要的意义。它为我们提供了一种可能：让大家公平交易食物，而不是争夺口粮。

规则与奶酪

目前来说，AI 对“语料”的使用，正处于无人监管的“旷野”；而内容作者也缺乏话语权和议价能力，只能眼看着自己的“奶酪”被蚕食。

能头疼的是，对于 AI 版权，我们压根就没形成基本共识。AI 的“学习”与人类的“借鉴”之间的边界在哪里？“语料”的所有权和使用权该如何界定？AI 生成内容的版权又该归属于谁？

在这场不对称的较量中，创作者岌岌可危：博弈，才刚刚开始。