【Factset独家洞察】人工智能策略系列:克服幻觉的7种方法

FactSet 慧甚
更新于
Esteban Ma
coverImg
来源: DepositPhotos

幻觉或许是生成式人工智能亟待攻克的核心局限之一。本文将探讨幻觉所产生的影响、成因及七种应对方法。这是人工智能策略系列的第二篇,该系列总共有六篇文章,助您充分挖掘人工智能的最大价值。


幻觉既包括事实错误也包括逻辑错误。OpenAI的官方常见问答指出:“ChatGPT并没有实时连接互联网,会偶尔生成错误的答案。它对2021年之后的世界动态认知有限,因此也可能生成有害或带有偏见的内容。我们建议用户验证一下从模型输出的回复是否准确。”常见问答还指出,“ChatGPT偶尔会编造事实或产生‘幻觉输出’”。


大型语言模型(LLM)生成的错误或虚构内容,往往以高度自信且看似合理的姿态呈现,并且通常令人觉得正当合理。


在本系列的开篇之作《人工智能策略系列:LLM 的工作原理及局限性》中,我们探讨了语言模型是如何预测并编制出连贯文本的;LLM并不会查找数据,它们不是百科全书,也不会验证自己的输出。所以,就像手机上的输入法预测一样,LLM生成的文本并不总是真实的。更何况,LLM还受限于训练数据的有限范围、信息的时效性不足,以及可能潜藏的错误与偏见。LLM的全部目的就是生成文本,因此它们通过训练和优化来提供一些可能并不准确的答案,而不是回答“我不知道”。


面对日益增多的关于“幻觉”输出的批评,LLM厂商正积极开始使用附加的解决方案来消除幻觉,比如结合事实核查、用检索到的数据(用Web浏览器插件等方法)来确定答案,以及在新模型中改进训练数据和强化学习过程。


LLM的幻觉已经成为了新闻的焦点,也造成了信誉危机。例如,Google Bard就因其关于詹姆斯·韦布望远镜的错误信息而受到了非常严重的批评,这对Google当时的股价产生了严重的财务影响。如果您在工作中使用LLM,请务必检查输出内容的准确性,并在雇主的指导下工作。


此外,众所周知,LLM还会编造各种信息来源和引用内容,造成了严重的法律问题(我们将在以后的文章中讨论这些问题)。


下面是一个与事实不符的错误的示例。人工智能模型收到了一个有点刁钻的问题:完全徒步穿越英吉利海峡的世界纪录是多少?LLM的回答中提到的人确实曾创造过横渡英吉利海峡的世界纪录,但有几处不准确之处:


· 他是游过去的,而不是步行

· 他花了7个小时,而不是14小时51分钟。

他的记录是在2005年创下的,而不是2020年,并且该记录在2007年被打破,远远早于该模型2021年的训练数据截止日期

17229346827272


对于预测文本模型来说,人工智能构建了一个包含合理或可能单词的文本,而不是事实数据,这并不奇怪。记住,LLM是一个语言模型,而不是一个知识模型。我们不应该把它当作百科全书或数据库来使用,除非您打算仔细检查它的所有答案。


下面是一个有逻辑错误的幻觉示例。我要求提供一个以字母b开头且与“revolt”(反抗)同义的单词。

17229346908588


如上所示,在一串提示和回复对话中,模型生成了错误的答案(幻觉),而不是说“我无法很好地回答这个问题”。它提出了“rebellion”(反叛)、“uprising”(起义)、“mutiny”(不服从)等单词——尽管这些词都不是以字母b开头的。


不过,当获得一个更简单的起始词时,这个模型就能够想出以b开头的单词——当我询问与“wind”(风)同义的单词时,它会提出“breeze”(微风),而不是产生的幻觉答案。

17229346991296


幸运的是,有几种策略可以消除幻觉,包括: 


1. 提高认识

2. 使用更高级的模型

3. 提供明确的指令

4. 提供示例答案

5. 提供完整的上下文

6. 验证输出内容

7. 实施检索式增强生成方法


幻觉消除策略1:提高认识


本系列的开篇之作致力于让您更直观地了解大型语言模型背后的机制。而本文旨在阐明大型语言模型的能力和局限性,以帮助您更有效和安全地使用它们。通过了解大型语言模型的能力和局限性,您将能够设计出可获得更可靠答案的问题(提示),并学会以更具批判性地的眼光来评估这些答案。换句话说,您将掌握如何持续有效地利用该模型的优势和能力。


幻觉消除策略2:使用更高级的模型


遏制逻辑谬误的一个简单方法是使用更高级的语言模型。目前OpenAI的GPT3.5是一个免费模型,但付费版本GPT-4(也称为ChatGPT Plus)在处理复杂语言或逻辑的任务时往往能展现更出色的表现。值得注意的是,GPT-4亦非尽善尽美,它具有延迟、高成本,及可能存在的准确性下降等问题,所以它并不是一个万无一失的解决方案。


对于负责为特定任务挑选最佳语言模型的软件工程师而言,他们可以参考分析各种模型的研究报告(如下图),这份报告分析了Meta、Anthropic、Google、OpenAI的LLM以及开源模型。研究评估了各种模型的真实性以及逻辑能力和防害机制等指标。但请务必牢记,许多这样的模型——以及它们的相对优势和劣势——会随着时间的推移而发生演变。 

17229347102102


回到以b开头的revolt同义词这个例子,GPT-4(更高级的模型)能够提出若干解决方案。 

17229347271969


幻觉消除策略3:提供明确的指令


提示工程——精心选择提示词以生成最佳人工智能输出的做法——为我们提供了接下来的三种方法。您可以通过在提示中明确坚持这些提示词来获得更准确的结果。当我指示较低级的模型确认其给出的revolt的五个同义词确实是以b开头时,它返回了所有以b开头的单词(不过奇怪的是,它说bustle[喧闹]不是以 b 开头的)。

17229347355594


但是,坚持准确性并不总是有效,如下面的例子所示。在新的聊天中,使用同样的提示所获得的单词全都不是以b开头,并且模型还错误地指出五个单词中有两个是以b开头。

17229347429999


对于重要的问题,有一种基于指令的方法通常能生成更好的答案,我们将其称为“思维链”方法。在这种方法中,您可以要求模型将问题分解成若干可理解的语段,并在逐步得出最终解决方案的过程中解释其思路。最后,明确指示模型“没有答案比错误答案更好”的提示通常会防止生成幻觉结果。


幻觉消除策略4:提供示例答案


您也可以向模型提供一个正确答案的示例,以帮助您从人工智能处获得更佳的答案。我在提示中给出了两个以b开头的revolt同义词示例(betray[背叛]和backlash[强烈抵制])。这次,AI 模型成功给出了另一个单词。

17229347501126


幻觉消除策略5:提供完整的上下文


还有一个方法是在我们的提示中提供完整的上下文。例如,我向模型询问了 FactSet慧甚从2020年12月(我们的财年是9月至第二年8月)开始的2021年第一季度财报电话会议中的主要主题,该会议发生在模型的训练截止日期之前。人工智能模型找出的三个主题(和支持点):强劲的财务业绩、持续的创新投资和产品服务扩展乍一看很令人信服。


但将人工智能生成的摘要与实际财报记录进行比较后发现,模型给出的第一个主题中引用的具体财务数据是不正确的。这个季度确实表现强劲,引用的数据也大致正确,但它们并不是公开报告的实际业绩数据。 

17229347585907


模型给出的第二个主题是创新投资。虽然创新是慧甚财报电话会议的一个常见主题,但“创新”一词并未出现在2021年第一季度的财报记录中。


第三个主题是产品扩展,并特别提到了环境、社会和治理(ESG)及私募市场。虽然公开报告的实际记录中提到过ESG(因为收购了一家ESG数据公司),但该季度并没有提到私募市场。


所以最后,模型给出的所有三个主题都是错误的。它们看似不错,如果您让熟悉慧甚的人猜测一下任意一个季度财报记录中的主题,这个模型的输出感觉上似乎是可信的。而这也正是LLM的工作:它会针对一个给定问题预测(即编造)合理答案。生成的文本是基于通用语言模式的预测,而不是基于研究的事实。


这个问题的最佳解决办法是提供完整的上下文。在本示例中,是将实际记录的整个文本都粘贴到提示中。大型语言模型都擅长语言处理,包括摘要、主题识别和情感分析。当给出全文后,不仅得出的三个主题很好地反映了财报记录内容,为其提供支持的分论点:客户维护、Truvalue Labs ESG收购,以及减少差旅和办公成本,在整个财报记录中都有多次提及。 

17229347656220


这些都是与2021年第一季度财报电话会议相关且准确的主题。在提供财报电话会议记录中的实际文本后,人工智能模型的表现明显好于仅依靠训练的数据来生成答案。


由此我们可知,询问财报中的比较宽泛的主题对于LLM来说是一个相对简单的请求;而当被问及财报中更具挑战性的细节问题时,这些模型的表现可能就会差强人意。


另外,用户还要知道的是,如果没有额外的插件或增强功能,LLM是无法从URL网址中获取网站文本的。因此,在输入内容时,您需要输入的是网页全文,而不是网址。


如果您确实输入了一个URL,那么得到的答案可能看似是人工智能模型已经获取原始文本的结果,但实际上这个答案是根据URL中的单词生成的幻觉。在以下示例中,模型在URL文本中看到“factset”和“财报电话会议”这两个词语,并再次对慧甚财报电话会议的主题做出最佳猜测。但输出内容是通用化的,并未反映实际记录。

17229348478276


要证明这一点,您可以使用TinyURL来缩短URL,删除完整单词的线索。这次,人工智能模型显示它无法浏览外部链接,需要您提供更多的上下文。

17229348375960


幻觉消除策略6:验证输出内容


验证人工智能输出内容的真实性对于揭示并纠正幻觉至关重要。对生成式人工智能采用基于风险的方法,并始终验证输出内容,尤其是对于基于事实的更高风险用例和大型语言模型之外的用例。


例如,生成式人工智能非常适合:

· 进行不受事实限制的创意写作

· 进行头脑风暴并生成创意

· 提供符合所需风格或清晰度的替代措辞

· 用被遗忘的书名或您所描述的重要人物来唤起您的记忆

17229348215046


语言模型的核心应用就是文本处理,并且大模型确实擅长此项工作。尽管输出的内容仍需人工审查,但这些模型在重新表述、总结、格式调整、语气转换或特定文本或主题提取等方面都展现了极高的适用性。


在多数情况下,针对模型训练数据中经常出现的常规知识领域,大模型也可以提供颇为可靠的见解与建议。例如,它会提出关于睡眠、营养、锻炼、友谊和压力管理的建议来作为帮助保持健康的常见方法。


但是,在面对高风险或专业性强的行业问题(如法律、医疗或金融)、严谨学科(如数学或编码)或特定文献引用时,对模型输出的细致审查与源头验证显得尤为关键。用户应将生成式人工智能看作是一名过于自信、急于取悦别人的实习生,而不是专家老师,其工作成果务必经过严谨复核。


幻觉消除策略7:引入检索式增强生成(RAG)


本文已经探讨了用户和人工智能模型交互的多种策略,但遏制幻觉的核心策略,或许只有在工程师才能采用。检索式增强生成(RAG)是在大模型提示中提供上下文的编程版本,也被认为是将答案建立在事实基础上。


借助RAG,系统首先会到一个可靠的数据库中寻找用户问题的答案。例如,大模型会浏览现有的帮助文档。然后,它会将数据库中的最佳匹配项与用户问题的文本结合起来,并让LLM来设计面向用户的会话响应。这种方法大大地减少了幻觉,因为它不依靠各种混合的训练数据来生成真实答案。


在我们的人工智能策略系列文章中将多次提到RAG,因为它是克服幻觉和其他一些挑战的关键技术。对于致力于优化语言模型的工程师而言,在大模型中集成RAG将会改善准确性、可解释性、加速知识更新,和增强基于用户的安全性。如需了解有关 RAG 的更多信息,请阅读我们的简短说明:减少生成式人工智能的幻觉。


结论


生成式人工智能可以帮助组织提高工作效率,改善客户和员工体验,并加速推进业务优先事项。了解幻觉(包括与事实不符的错误和逻辑错误)所产生的影响、幻觉产生的原因,以及消除幻觉的方法,将有助于您更加高效地使用人工智能技术。


作者简介

17229348632000

LUCY TANCREDI

技术战略计划高级副总裁

Lucy Tancredi是FactSet慧甚的技术战略计划高级副总裁。她负责在整个企业内利用人工智能来提高慧甚的竞争优势和客户体验。她的团队负责开发机器学习和NLP模型,其成果有助于打造创新的个性化产品并提高运营效率。她于1995年在慧甚开始了自己的职业生涯,一直负责领导全球工程团队,开发研究和分析产品以及企业技术。Tancredi拥有麻省理工学院计算机科学学士学位,以及哈佛大学教育学硕士学位。

欢迎与我们分享您在业务上的挑战: https://go.factset.com/zh/

免责声明: 本文内容仅代表作者个人观点,不代表mitrade官方立场,也不能作为投资建议。文章内容仅做参考,读者不应以本文作为任何投资依据。 mitrade对任何以本文为交易依据的结果不承担责任。 Mitrade亦不能保证本文内容的准确性。在做出任何投资决定之前,您应该寻求独立财务顾问的建议,以确保您了解风险。

差价合约(CFD)是杠杆性产品,有可能导致您损失全部资金。这些产品并不适合所有人,请谨慎投资。查阅详情



goTop
quote
这篇文章有帮到你吗?
相关文章
placeholder
财报解读丨苹果:是“馅饼”还是“画饼”?新的Apple Intelligence功能可能会推动未来iPhone的升级,但移动运营商升级率下降带来长期风险。
作者  美股研究社
47 分钟前
新的Apple Intelligence功能可能会推动未来iPhone的升级,但移动运营商升级率下降带来长期风险。
placeholder
AI面临产能瓶颈?贝莱德携手微软推出千亿美元基金,打造AI基础设施!贝莱德与微软共同打造一只1,000亿美元的AI基金,以此解决AI可能面临的产能瓶颈问题。
作者  Block Tao
1 小时前
贝莱德与微软共同打造一只1,000亿美元的AI基金,以此解决AI可能面临的产能瓶颈问题。
placeholder
美联储降息50基点预期升温!若不及预期市场将大跌?美联储传声筒Nick Timiraos撰文放鸽,市场预期9月降息50基点的概率升至65%。分析师警告若美联储只降息25基点,市场可能会面临较大抛压。
作者  Alison Ho
3 小时前
美联储传声筒Nick Timiraos撰文放鸽,市场预期9月降息50基点的概率升至65%。分析师警告若美联储只降息25基点,市场可能会面临较大抛压。
placeholder
黎巴嫩突发大量寻呼机爆炸,致9死近3000人受伤黎巴嫩真主党大量寻呼机被远超引爆,真主党认为以色列负有全部责任,或将使冲突进一步升级。
作者  Block Tao
5 小时前
黎巴嫩真主党大量寻呼机被远超引爆,真主党认为以色列负有全部责任,或将使冲突进一步升级。
placeholder
苹果官网被挤崩?iPhone 16系列这个机型将成为畅销机?iPhone 16系列发布后,苹果再次被诟病“零创新”,不过,从预售情况来看,苹果用户的忠诚度依旧很高,因为苹果官网一度被挤爆。
作者  Penny Pan
9 月 14 日 周六
iPhone 16系列发布后,苹果再次被诟病“零创新”,不过,从预售情况来看,苹果用户的忠诚度依旧很高,因为苹果官网一度被挤爆。