人工智能模型在人工智能生成的数据上训练时会吐出“胡言乱语”

时间：2024-10-01 编辑： 浏览：(504)

一项新的研究发现，基于人工智能生成材料的先前迭代训练的大型语言模型（LLM）产生的输出缺乏实质性和细微差别。这些发现给人工智能开发人员带来了新的挑战，他们依赖有限的人工生成数据集来获取内容。

另请阅读：AI deepfakes使美国当局难以保护儿童——报告

来自英国剑桥大学和牛津大学的人工智能研究人员试图根据仅包含人工智能生成内容的数据集编写提示。结果并不理想，因为它产生了难以理解的反应。

该论文的作者之一，剑桥大学的Zhakar Shumaylov表示，需要对提供LLM的数据进行质量控制，LLM是ChatGPT和谷歌Gemini等生成式人工智能聊天机器人背后的技术。Shumaylov说：

“信息是，我们必须非常小心训练数据中的结果。[否则，]事情总是会出错。”。

Shumaylov详细介绍说，这种现象被称为“模型崩溃”。它已被证明会影响各种人工智能模型，包括那些专门使用文本提示生成图像的模型。

根据这项研究，在一个模型上使用人工智能生成的数据重复文本提示最终会产生胡言乱语。例如，研究人员发现，一个用关于英国中世纪教堂塔楼的文本进行测试的系统仅在九代之后就产生了重复的野兔列表。

在评论这些结果时，加州大学计算机科学家Hany Farid将数据崩溃比作动物繁殖中特有的挑战。

法里德说：“如果一个物种与自己的后代近亲繁殖，并且没有使其基因库多样化，这可能会导致该物种的崩溃。”。

当研究人员将人类生成的数据注入人工智能数据时，崩溃的速度比在纯人工智能生成的内容上运行时要慢。

人工智能模型在人工智能生成的数据上训练时会产生胡言乱语。

语言模型通过在大量文本中建立标记（单词或单词部分）之间的关联来工作，这些文本通常是从互联网上抓取的。他们根据这些学习模式，通过吐出统计上最可能的下一个单词来生成文本。

另请阅读：ChatGPT驱动的泰迪熊Poe为孩子们读睡前故事

7月24日发表在《自然》杂志上的这项研究表明，数据集中几次提到的信息可能不会重复。研究人员担心，这可能会对已经被边缘化的少数群体产生负面影响。

为了避免现实生活中的模型崩溃，该研究建议对人工智能生成的内容和人类生成的内容进行水印处理。但它表示，由于竞争对手人工智能公司之间缺乏协调，这也可能是一个问题。

这项研究的发现正值人们越来越多地争论人工智能是否会导致人类在创作内容时被完全排除在外，包括小说和报纸文章的写作。

这项名为“人工智能模型在递归生成的数据上训练时会崩溃”的研究结果平息了这场争论——人类还没有被排除在等式之外。