文章摘要
加载中...|
此内容根据文章生成,并经过人工审核,仅用于文章内容的解释与总结 投诉

注意

本文为译文,原文链接:https://www.tidio.com/blog/ai-hallucinations/

“AI 幻觉”这个词听起来就像是科幻电影里的东西……或者至少是社交媒体上兴起的新俚语。

然而——

这是一个非常真实的术语,描述了一个严重的问题。

AI 幻觉(AI hallucination)是指大型语言模型(如 OpenAI 的 GPT4 或 Google 的 PaLM)创建虚假信息并将其作为真实信息呈现的情况。。

大型语言模型正变得越来越先进,越来越多的 AI 工具进入市场。因此,AI 生成虚假信息并将其呈现为真实的问题正在变得更加普遍。

我们决定深入探索社会对 AI 幻觉的经验以及人们对它们的看法。

这项研究关注人们与 AI 幻觉的经历、类型、原因以及问题的历史。此外,我们还将讨论社会对 AI 的恐惧以及识别 AI 幻觉的不同方法。

不再拖延,让我们深入探讨。

AI 幻觉:主要发现

我们询问了近一千人(确切地说,是 974 人)关于他们与 AI 幻觉的经历和态度。可以说,有些事情确实让我们感到惊讶。即使你了解到 AI 幻觉的普遍性,这些事情可能也会让你感到惊讶。

例如,几乎所有受访者(确切地说,是 93%)都确信 AI 幻觉会伤害用户。这个问题现在不再是那么无辜了,对吧?

这里还有一些我们的发现:

  • 多达 96%的互联网用户了解 AI 幻觉,其中约 86%的人亲身经历过
  • 高达 72%的人信任 AI 提供可靠和真实的信息,然而,其中 75%的人至少被 AI 误导过一次
  • 约 46%的受访者经常遇到 AI 幻觉,35%的人偶尔遇到
  • 约 77%的用户被 AI 幻觉欺骗过,而多达 33%从未经历过的人认为他们可能会被误导
  • 令人震惊的是,96%的受访者遇到过让他们质疑自己认知的 AI 内容
  • 人们在使用 Midjourney、ChatGPT、Bard、Siri、Alexa 等工具时遇到过 AI 幻觉
  • 几乎三分之一(32%)的用户依靠直觉发现 AI 幻觉,而 57%的人会与其他资源进行交叉验证
  • 关于 AI 幻觉的后果,人们最担心的是隐私风险、虚假信息、选举操纵和社会洗脑
  • 大约 48%的人希望提高关于人工智能的用户教育,以对抗人工智能的幻觉,而 47%的人会投票支持为开发者制定更严格的法规和指南
  • 只有 27%的人将人工智能幻觉归咎于编写提示的用户,而 22%的人认为这是政府的责任,因为政府想要推动其议程 AI hallucination:where People Stand

嗯——

正如您所看到的,这并不像看起来那么简单。AI 幻觉不仅仅是“机器人说些愚蠢、有趣的话”。它们有可能变得问题重重,普通用户对此也有所了解(尽管他们仍然对 AI 抱有大量信任)。

虽然 AI 幻觉是什么可能已经很清楚,但它们存在多少不同变体仍然难以把握。

让我们来看看不同类型和工具的幻觉,以便更好地理解它。

人工智能幻觉的类型

人工智能幻觉有多种形式,这是一个事实。它们从有趣的矛盾到可疑的事实,再到完全虚构的信息都有。以下是一些在使用人工智能工具时可能会遇到的例子。

提示矛盾

提示矛盾是指人工智能工具生成的响应与所给的提示不匹配的情况。有时,甚至完全不匹配。这意味着你问了一个问题,却得到了一个完全出乎意料的答案。

AI hallucination:where People Stand

句子矛盾

这些就是当LLM创建的句子与之前的句子相矛盾的情况(通常是在对同一提示的回应中)。然而,答案在总体上似乎是相关的,但其中一些部分可能相互矛盾,与整体回应不符。

AI hallucination:where People Stand

事实矛盾

这是一种 AI 幻觉类型,当LLM将错误信息作为真实和事实正确的信息呈现。以下是一个来自 ChatGPT 的例子:

AI hallucination:where People Stand

确实没有这样的世界纪录。然而,包含姓名和日期的答案听起来是合理的,因此普通用户可能会犯下相信它的错误。让我们来看另一个例子:

AI hallucination:where People Stand

法国绝对从未将维尔纽斯电视塔赠送给立陶宛。工具是否将其与自由女神像混淆了?很有可能。

这里又是 GPT4 的一个事实性错误:

AI hallucination:where People Stand

实际上,超过 700 人在泰坦尼克号撞船事件中幸存。然而,当被要求提供来源时,该工具立即自行纠正。这是个好消息。

尽管工具每天都在变得更好,但在LLM回复中的事实错误始终存在。AI 会弄错人物、事件和地点,编造事实,并确保它们看起来是真实的。但这还不是它能犯错的终点。

阅读更多:查看如何在我们的指南中识别虚假信息和假新闻。

计算幻觉

如果你曾经在高中的数学学习中感到困扰,那么你现在肯定对生成式 AI 心存感激。它能在几秒钟内解决复杂的方程和数学问题,这听起来太好了,以至于让人难以置信。而且……这确实是真的。

在计算方面,AI 会犯很多错误。以下是一个 GPT-3 的例子:

AI hallucination:where People Stand

我个人可能会相信它,因为双重检查太麻烦了。然而,我错了!这里的正确答案是 151——欢迎你自己验证这一点。

尽管 GPT-3 能通过律师资格考试、参加 SAT 考试并被常春藤盟校录取,但它仍然会在相当简单的数学问题上出错。你可能觉得这听起来很人性化。我们认为我们正在发展信任问题。

来源矛盾

这可能对使用 AI 帮助完成论文(尤其是参考文献和来源)的所有学生来说是个坏消息。AI 经常会编造来源。

这里有一个来自 ChatGPT 的关于过度食用奶酪的来源列表的例子:

AI hallucination:where People Stand

如果你勤奋地检查它们的有效性,你会发现这些来源实际上都不存在。真让人失望,因为它们看起来格式完全适合引用。你只需要复制粘贴即可!

尽管 AI 大多数时候能正确处理参考文献,但这类错误仍然时有发生,因此越来越难以信任这些工具。

然而——

我们是否可以深入探究一下,为什么 AI 会首先出现幻觉?这不可能是因为 AI 想取笑我们,对吧?

继续阅读,自行了解。

为什么人工智能会产生幻觉?

AI hallucination:where People Stand

即使是领先的 AI 专家也对 AI 产生幻觉的原因缺乏信心。然而,有几个因素可能会影响这一问题的发生:

训练数据不足

训练数据中的空白和矛盾可能影响 AI 幻觉发生的频率。

例如,让我们以一个旨在生成逼真的人类对话的生成模型为例。如果这个模型使用社交媒体数据进行微调,它可能在生成典型的在线互动的随意和非正式语言方面表现出色。

然而,如果我们提示它为法律文件生成正式和技术性内容,它可能会因为缺乏接触法律术语和用于法律情境中的精确语言而感到困难。尽管其主要目标是生成对提示的响应,但该模型在法律术语方面的有限训练可能导致在如此专业化的领域中产生不准确和不适宜的输出。

输出在训练数据上准确,但在新数据上不准确

LLM 工具可能会出现所谓的过拟合现象,即模型在训练数据上表现良好,但在新的、未见过的数据上表现较差。机器学习(ML)模型训练的主要目标是通过对训练数据进行泛化,以便系统能够准确处理它遇到的新实例。然而,当模型过度调整到训练数据时,实际上是在记忆该集合中的特定输入和输出,这阻碍了它对新数据有效泛化的能力。

例如,考虑一个旨在评估信用风险和批准贷款申请的模型。当与训练数据相比时,该模型在预测贷款违约可能性方面可能具有看似令人印象深刻的准确性。然而,如果模型已经陷入过拟合,其在新数据上的实际准确性可能接近 70%。因此,将这个有缺陷的模型应用于未来的贷款决策可能导致由于风险评估不准确而涌入大量不满意的客户。

不正确编码的提示

模型开发中的另一个挑战是确保训练文本和提示被正确编码。语言模型使用一种称为向量编码的过程,将术语映射到一组数字。与直接处理单词相比,这种方法具有几个优点。例如,具有多个含义的单词可以为每个含义具有不同的向量表示,从而降低混淆的可能性。

想想“银行”这个词:它对于一个金融机构有一个向量表示,而对于河流的河岸则有一个完全不同的向量表示。

向量表示还可以执行语义操作,例如通过数学运算找到相似词语。然而,文本与表示之间的编码和解码过程的问题可能导致生成的文本中出现幻觉或无意义的输出。

理解 AI 幻觉问题的原因很重要。根据我们的研究,多达 26%的人认为是编写提示的用户有问题,而 23%的人认为是想要推动其议程的政府有问题。大多数人(44%)认为,提供错误信息的工具本身是有罪的。

AI hallucination:where People Stand

另一个与此主题相关的问题是时间范围——

人工智能的幻觉是否已经存在了一段时间?还是它们是随着人工智能工具的大规模使用而相对较新的事物?

让我们来分析一下。

一切开始的地方

AI hallucination:where People Stand

人工智能幻觉自人工智能出现以来就存在了。这大概是从 20 世纪 50 年代开始的。然而,关于它们的讨论要晚得多。

“AI 幻觉”这一术语首次出现在 2000 年《IEEE 国际自动人脸和手势识别会议论文集》的研究论文中。后来,在 2022 年发表的一份报告中,作者探讨了“AI 幻觉”一词在计算机视觉领域的早期应用,并引用了 2000 年出版物中的起源。

2018 年,谷歌 DeepMind 的研究人员提出了“AI 幻觉”这一术语。随着更多 AI 工具的出现,这一术语越来越受欢迎。2022 年,ChatGPT 公开发布,将大量幻觉示例带入公众视野,其使用达到了顶峰。

阅读更多:在我们的指南中探索 ChatGPT 统计数据。

当然,在那之前也有幻觉案例,只是没有被那么广泛地讨论。例如,2017 年,微软推出了其人工智能聊天机器人 Tay。然而,公司很快不得不关闭这个工具,因为它在发布后不到一天就开始生成随机的种族主义和攻击性推文。

2021 年又发生了一个例子,当时加州大学的研究人员发现,一个在标记为“熊猫”的图像上训练的人工智能系统开始将它们识别为根本不存在熊猫的图像中的东西。系统将长颈鹿和自行车识别为熊猫。可爱但令人担忧。

实际上,“AI 幻觉”这个术语是从心理学借用的。“幻觉”一词用于描述这种现象,是因为它与人类经历幻觉时发生的情况相似。就像人类由于精神或神经疾病,能看到或听到不存在的事物一样,AI 工具生成的响应并非基于现实。值得注意的是,尽管人类的幻觉是与外部世界脱节的感知,但 AI 幻觉指的是缺乏任何训练数据支撑的自信回答。

如今的情况如何?

让我们进行一次脉搏检查。

我们现在在哪里

在尝试了不同的工具,特别是 ChatGPT 之后,我们必须承认,关于 AI 幻觉的情况正在变得更好。

还记得法国送给立陶宛电视塔的那个臭名昭著的例子吗?以下是截至 2023 年 8 月,ChatGPT 如何回答我的

AI hallucination:where People Stand

这是好消息。据说公司已经采取措施来应对他们在LLMs中的 AI 幻觉问题。例如,OpenAI 宣布了他们解决这一问题的新的方法。该品牌的策略是训练 AI 模型,在它们朝着答案前进的过程中,对每个正确的推理步骤进行自我奖励,而不仅仅是奖励最终答案。

这种方法被称为“过程监督”,是“结果监督”的替代方案。它有可能大幅降低幻觉的发生率,因为过程将更类似于人类的思维链。

这项研究的动机是为了解决幻觉问题,使模型在解决具有挑战性的推理问题时更具能力。

卡尔·科贝--OpenAI 的 mathgen 研究员

在宣布此方法的科研论文中,OpenAI 还发布了一个用于训练新模型的 80 万个人类标注的数据集。

然而,目前这仅仅是研究。LLMs 从与用户的互动中学习,科技公司们正在挠头寻找解决这些问题的对策。

但用户们对这些事情有什么看法呢?

回到我们的研究,我们必须承认,公司确实需要认真思考解决方案,因为 AI 幻觉问题普遍且令人担忧。

让我们更深入地研究一下我们在研究中发现的某些统计数据。

大约 96%的互联网用户知道 AI 幻觉,其中约 86%的人亲身经历过。

AI hallucination:where People Stand

尽管这个术语最近才被广泛使用,但它却像野火一样迅速传播。人们都知道 AI 幻觉,大多数人都是从个人经历中得知的。

用户在各种生成式 AI 工具中遇到了问题:从 ChatGPT 和 Bard 到 Siri、Alexa 再到 Midjourney。他们对这些工具有何感受?嗯——大多数人感到好奇、烦恼或焦虑。这对 AI 开发者来说可不是什么好消息。

大约 72%的人信任人工智能提供可靠和真实的信息,然而,其中大多数人(73%)至少被人工智能误导过一次

AI hallucination:where People Stand

这很刺耳。人工智能工具享有很高的声誉——人们信任它们,并依赖它们来完成工作和日常生活。然而,当大多数用户都被人工智能的幻觉所误导时,这种信任怎么可能不被破坏呢?

从无害的用词失误到错误的数学计算,再到令人担忧的事实不一致——我们大多数人都有过这样的经历。有了这样的数据,AI 公司加速努力减少 AI 幻觉的时刻已经到来,因为人们对 AI 的信任水平只会下降。

高达 32%的人依靠直觉识别出 AI 的幻觉,而 56%的人会与其他资源进行交叉验证

AI hallucination:where People Stand

人工智能幻觉通常可以被识别出来,这是个好消息。当某些事情看起来不真实(比如徒步横渡英吉利海峡的世界纪录),人们要么直觉上忽略这种反应,要么与其他资源进行交叉验证。

然而,如果不采取行动,AI 的幻觉可能会变得更加复杂和难以察觉,这可能会误导更多的人。那么我们该如何应对呢?

大约 47%的人会投票支持为开发者制定更严格的法规和指南

AI hallucination:where People Stand

近一半受访者希望对参与构建LLMs和 AI 工具的 AI 公司和商业施加更严格的监管。这可能是有道理的,因为像 ChatGPT 这样的主流工具被各种人使用,包括孩子(或罪犯)。

拥有一个强大的全能工具已经很不错了,但如果它还容易产生幻觉,那我们可能会遇到一些麻烦。采取更严格的措施可能有助于最大限度地减少潜在问题。

查看更多:了解我们关于广泛采用生成式 AI 及其人们对它的看法的研究

大约 93%的人相信 AI 幻觉可能会伤害用户

AI hallucination:where People Stand

这是一些关心的人。当 93%的用户确信 AI 幻觉有可能造成危害时,这就意味着问题非常严重。

然而,“危害”这个词很大。如果人工智能的幻觉失控,会发生哪些具体后果?

继续阅读以了解更多。

人工智能幻觉的后果

AI hallucination:where People Stand

根据我们的受访者,人工智能幻觉的三大潜在后果包括隐私和安全风险(60%)、不平等和偏见的传播(46%)以及健康和福祉危害(44%)。其次是虚假和误导性信息的传播(35%)、社会洗脑(28%),甚至包括选举操纵(16%)。

让我们深入探讨一些这些恐惧,看看如果 AI 幻觉失控,究竟会发生什么。

错误和误导性信息的传播

这是一个合理的担忧。虚假信息传播如同野火,如果大规模传播,越来越多的人将开始质疑他们的信念和认知。在医疗保健、金融或法律服务等领域,数据的准确性至关重要,因此 AI 幻觉可能造成很大危害。这可能导致 44%的受访者所担忧的健康和福祉风险。

偏见和不平等现象的蔓延

根据我们的研究,生成式 AI 已经相当有偏见。正如我们之前讨论的微软聊天机器人 Tay 的例子所示,AI 的幻觉可能会加剧 AI 工具中的偏见和偏见问题。然而,AI 的幻觉和 AI 的偏见是两个不同的问题:人工智能中的偏见是系统性的错误,这些错误来自有偏见的数据或算法。AI 的幻觉是指系统无法正确解释它所接收到的数据。

公司的法律合规风险

在所有行业中,已有三分之一的业务以某种形式使用人工智能,并且这个数字正在上升。如果这些 AI 工具出现幻觉,企业可能会遇到麻烦。AI 工具的输出如果错误,可能会造成现实世界的后果,企业可能需要承担法律责任。此外,多个行业有严格的合规要求,因此 AI 的幻觉会使 AI 工具违反这些合规标准,导致企业遭受重大损失。

是的,AI 幻觉对企业和个人都可能非常负面。那么,我们如何最小化潜在的危害,以便继续使用这些系统呢?

第一步是学会识别 AI 何时出现幻觉。

如何识别 AI 的幻觉

好消息是,目前大多数 AI 的幻觉之所以被发现,是因为它们没有通过“常识”测试。AI 可能会自信地向你描述步行穿越英吉利海峡,但很快就能意识到这是不可能的。

然而,有些 AI 的幻觉更难被发现,尤其是在涉及来源、真实人物的作品以及不明显的事实时。有时,提出一个后续问题可能会有帮助:工具会道歉并说它给出了错误的答案。

然而,发现人工智能幻觉的最佳方法是自己进行事实核查。如果某事是真实的,那么在可信资源中会有相关信息。因此,记住不要轻信人工智能所说的每一句话,而是要进行研究和双重核查至关重要。我们的受访者似乎都同意,与可信资源进行交叉核对是发现人工智能回应中是否存在问题的最佳方式。

AI hallucination:where People Stand

也有方法可以最小化在与 AI 工具交互时出现幻觉的情况。下一节将提供相关技巧。

如何预防人工智能的幻觉

确实有方法可以让普通用户减少被 AI 误导的风险。当然,这些方法并不能保证 AI 幻觉不会发生,但根据我们的经验,它们确实可以减少其发生的频率。以下是我们的一些经过测试的最佳实践:

在你的提示中要具体明确

这是获得你想要输出的最可靠方法,不会出现 AI 幻觉等意外结果。在提示中加入额外上下文可以非常有助于限制可能的输出,并为工具提供相关数据来源。例如,告诉一个LLM想象它是一个可以提供你需要的信息的东西。

另一个很好的策略是让工具从一系列选项中选择,而不是提出开放式问题。考试中多项选择题更容易的原因就在于此。同样,对于 AI 来说,一个严格的选项列表可以防止它发明新事物。

AI hallucination:where People Stand

筛选参数

大多数LLMs都有一套你可以调整的过滤器和参数。可以影响 AI 幻觉的是温度参数,它控制输出的随机性。如果温度设置得更高,输出就会更加随机。

AI hallucination:where People Stand

使用多帧提示

他们不知道单词或句子,他们知道模式。他们通过评估单词出现的概率来构建句子。因此,为了帮助他们完成这项任务,您可以提供一些您期望的输出示例。这样,模型可以更好地识别模式,并提供高质量的回答。

使用 AI 进行计算时要谨慎。

如我们所知,LLMs 在数学方面存在问题(就像人类一样)。我们的建议是在使用 AI 进行计算时要极其小心。

LLMs 在大量文本数据上进行训练,而不是数学数据。因此,他们学习的是单词之间的关系,而不是数字。他们的核心技能是语言处理,而不是算术。虽然 AI 可以通过训练学会进行简单的算术,但在更复杂的数学推理上会遇到困难。其统计基础使得 AI 在语言模式识别方面更出色,而不是在操作数值概念方面。简而言之,AI 无法轻易将算术规则转移到新的问题上。

模型架构和训练方法的进步最终可能帮助人工智能在计算方面变得更擅长。然而,目前,与它们的语言技能相比,计算仍然是明显的弱点,我们的建议是避免使用人工智能进行任何类型的复杂计算。

告诉工具你不需要什么

让 AI 知道你不想得到什么,这和你想得到的一样重要。这是真的!防止工具生成你不需要的响应,也是防止它产生幻觉(我们假设你也不需要)的好方法。只需让 AI 排除某些事实或数据,你就可以继续了。

AI hallucination:where People Stand

提供 AI 反馈

就像人类一样,人工智能是通过经验来学习的。在生成式人工智能工具的情况下,它们通过和用户的互动来学习。当人工智能给出错误回答或开始产生幻觉时,它并不知道发生了什么,这就是你可以提供帮助的地方。

告诉工具它的回答是不正确或不有帮助的。如果你在使用 ChatGPT,你可以按反馈按钮通知工具该回答没有帮助。这样,它就会从你的交流中学习,并有望得到改进。

正如你所见,确实有防止人工智能产生幻觉的方法。当然,我们应当始终保持警惕,意识到我们阅读的内容可能并不一定都是真实的。就像互联网上的任何地方一样。但这又是另一个故事了。

现在,让我们总结一下这项研究的主要收获。

AI 幻觉:关键要点

世界上没有任何事物是完美的,包括人工智能。

它会犯错误,混淆事物,并遭受人工智能的幻觉。使用人工智能工具的人都知道这个问题,他们肯定很担心。希望这能成为公司采取行动的信号。否则,后果可能非常严重。

好消息是,确实有方法可以识别和预防人工智能的幻觉。更好的消息是,这些工具正在变得更好。看起来我们正在朝着正确的方向前进。

然而,保持警惕并努力不成为人工智能幻觉的受害者至关重要。最终,人类总是比机器人聪明,所以我们不能让他们欺骗我们。事实核查和寻求真相是我们的最大武器。现在是使用它们的时候了。

来源

研究方法

关于人工智能幻觉的研究,我们收集了 974 人的反馈。我们使用了 Reddit 和 Amazon Mechanical Turk。

我们的受访者中,71%为男性,28%为女性,约 1%为非二元性别。大多数参与者(55%)为 25 至 41 岁的千禧一代。其他年龄段代表的是 X 世代(42%)、Z 世代(1%)和婴儿潮一代(6%)。

受访者需要回答 17 个问题,其中大部分为多项选择或基于量表的问题。调查中包含一个注意力检查问题。

赞赏博主
评论 隐私政策