投资慧眼的使命是为投资者提供及时、有价值、丰富的信息，以便快速准确的抓住市场行情。

2021

最佳新闻及分析资讯提供者

FxDailyInfo

2022

全球最佳外汇教育资源

International Business Magazine

投资慧眼

头条

综合

【Factset独家洞察】人工智能策略系列：克服幻觉的7种方法

FactSet

更新于

审核人

Esteban Ma

来源: DepositPhotos

幻觉或许是生成式人工智能亟待攻克的核心局限之一。本文将探讨幻觉所产生的影响、成因及七种应对方法。这是人工智能策略系列的第二篇，该系列总共有六篇文章，助您充分挖掘人工智能的最大价值。

幻觉既包括事实错误也包括逻辑错误。OpenAI的官方常见问答指出：“ChatGPT并没有实时连接互联网，会偶尔生成错误的答案。它对2021年之后的世界动态认知有限，因此也可能生成有害或带有偏见的内容。我们建议用户验证一下从模型输出的回复是否准确。”常见问答还指出，“ChatGPT偶尔会编造事实或产生‘幻觉输出’”。

大型语言模型(LLM)生成的错误或虚构内容，往往以高度自信且看似合理的姿态呈现，并且通常令人觉得正当合理。

在本系列的开篇之作《人工智能策略系列：LLM 的工作原理及局限性》中，我们探讨了语言模型是如何预测并编制出连贯文本的；LLM并不会查找数据，它们不是百科全书，也不会验证自己的输出。所以，就像手机上的输入法预测一样，LLM生成的文本并不总是真实的。更何况，LLM还受限于训练数据的有限范围、信息的时效性不足，以及可能潜藏的错误与偏见。LLM的全部目的就是生成文本，因此它们通过训练和优化来提供一些可能并不准确的答案，而不是回答“我不知道”。

面对日益增多的关于“幻觉”输出的批评，LLM厂商正积极开始使用附加的解决方案来消除幻觉，比如结合事实核查、用检索到的数据（用Web浏览器插件等方法）来确定答案，以及在新模型中改进训练数据和强化学习过程。

LLM的幻觉已经成为了新闻的焦点，也造成了信誉危机。例如，Google Bard就因其关于詹姆斯·韦布望远镜的错误信息而受到了非常严重的批评，这对Google当时的股价产生了严重的财务影响。如果您在工作中使用LLM，请务必检查输出内容的准确性，并在雇主的指导下工作。

此外，众所周知，LLM还会编造各种信息来源和引用内容，造成了严重的法律问题（我们将在以后的文章中讨论这些问题）。

下面是一个与事实不符的错误的示例。人工智能模型收到了一个有点刁钻的问题：完全徒步穿越英吉利海峡的世界纪录是多少？LLM的回答中提到的人确实曾创造过横渡英吉利海峡的世界纪录，但有几处不准确之处：

· 他是游过去的，而不是步行

· 他花了7个小时，而不是14小时51分钟。

他的记录是在2005年创下的，而不是2020年，并且该记录在2007年被打破，远远早于该模型2021年的训练数据截止日期

17229346827272

对于预测文本模型来说，人工智能构建了一个包含合理或可能单词的文本，而不是事实数据，这并不奇怪。记住，LLM是一个语言模型，而不是一个知识模型。我们不应该把它当作百科全书或数据库来使用，除非您打算仔细检查它的所有答案。

下面是一个有逻辑错误的幻觉示例。我要求提供一个以字母b开头且与“revolt”（反抗）同义的单词。

17229346908588

如上所示，在一串提示和回复对话中，模型生成了错误的答案（幻觉），而不是说“我无法很好地回答这个问题”。它提出了“rebellion”（反叛）、“uprising”（起义）、“mutiny”（不服从）等单词——尽管这些词都不是以字母b开头的。

不过，当获得一个更简单的起始词时，这个模型就能够想出以b开头的单词——当我询问与“wind”（风）同义的单词时，它会提出“breeze”（微风），而不是产生的幻觉答案。

17229346991296

幸运的是，有几种策略可以消除幻觉，包括：

1. 提高认识

2. 使用更高级的模型

3. 提供明确的指令

4. 提供示例答案

5. 提供完整的上下文

6. 验证输出内容

7. 实施检索式增强生成方法

幻觉消除策略1：提高认识

本系列的开篇之作致力于让您更直观地了解大型语言模型背后的机制。而本文旨在阐明大型语言模型的能力和局限性，以帮助您更有效和安全地使用它们。通过了解大型语言模型的能力和局限性，您将能够设计出可获得更可靠答案的问题（提示），并学会以更具批判性地的眼光来评估这些答案。换句话说，您将掌握如何持续有效地利用该模型的优势和能力。

幻觉消除策略2：使用更高级的模型

遏制逻辑谬误的一个简单方法是使用更高级的语言模型。目前OpenAI的GPT3.5是一个免费模型，但付费版本GPT-4（也称为ChatGPT Plus）在处理复杂语言或逻辑的任务时往往能展现更出色的表现。值得注意的是，GPT-4亦非尽善尽美，它具有延迟、高成本，及可能存在的准确性下降等问题，所以它并不是一个万无一失的解决方案。

对于负责为特定任务挑选最佳语言模型的软件工程师而言，他们可以参考分析各种模型的研究报告（如下图），这份报告分析了Meta、Anthropic、Google、OpenAI的LLM以及开源模型。研究评估了各种模型的真实性以及逻辑能力和防害机制等指标。但请务必牢记，许多这样的模型——以及它们的相对优势和劣势——会随着时间的推移而发生演变。

17229347102102

回到以b开头的revolt同义词这个例子，GPT-4（更高级的模型）能够提出若干解决方案。

17229347271969

幻觉消除策略3：提供明确的指令

提示工程——精心选择提示词以生成最佳人工智能输出的做法——为我们提供了接下来的三种方法。您可以通过在提示中明确坚持这些提示词来获得更准确的结果。当我指示较低级的模型确认其给出的revolt的五个同义词确实是以b开头时，它返回了所有以b开头的单词（不过奇怪的是，它说bustle[喧闹]不是以 b 开头的）。

17229347355594

但是，坚持准确性并不总是有效，如下面的例子所示。在新的聊天中，使用同样的提示所获得的单词全都不是以b开头，并且模型还错误地指出五个单词中有两个是以b开头。

17229347429999

对于重要的问题，有一种基于指令的方法通常能生成更好的答案，我们将其称为“思维链”方法。在这种方法中，您可以要求模型将问题分解成若干可理解的语段，并在逐步得出最终解决方案的过程中解释其思路。最后，明确指示模型“没有答案比错误答案更好”的提示通常会防止生成幻觉结果。

幻觉消除策略4：提供示例答案

您也可以向模型提供一个正确答案的示例，以帮助您从人工智能处获得更佳的答案。我在提示中给出了两个以b开头的revolt同义词示例（betray[背叛]和backlash[强烈抵制]）。这次，AI 模型成功给出了另一个单词。

17229347501126

幻觉消除策略5：提供完整的上下文

还有一个方法是在我们的提示中提供完整的上下文。例如，我向模型询问了 FactSet慧甚从2020年12月（我们的财年是9月至第二年8月）开始的2021年第一季度财报电话会议中的主要主题，该会议发生在模型的训练截止日期之前。人工智能模型找出的三个主题（和支持点）：强劲的财务业绩、持续的创新投资和产品服务扩展乍一看很令人信服。

但将人工智能生成的摘要与实际财报记录进行比较后发现，模型给出的第一个主题中引用的具体财务数据是不正确的。这个季度确实表现强劲，引用的数据也大致正确，但它们并不是公开报告的实际业绩数据。

17229347585907

模型给出的第二个主题是创新投资。虽然创新是慧甚财报电话会议的一个常见主题，但“创新”一词并未出现在2021年第一季度的财报记录中。

第三个主题是产品扩展，并特别提到了环境、社会和治理(ESG)及私募市场。虽然公开报告的实际记录中提到过ESG（因为收购了一家ESG数据公司），但该季度并没有提到私募市场。

所以最后，模型给出的所有三个主题都是错误的。它们看似不错，如果您让熟悉慧甚的人猜测一下任意一个季度财报记录中的主题，这个模型的输出感觉上似乎是可信的。而这也正是LLM的工作：它会针对一个给定问题预测（即编造）合理答案。生成的文本是基于通用语言模式的预测，而不是基于研究的事实。

这个问题的最佳解决办法是提供完整的上下文。在本示例中，是将实际记录的整个文本都粘贴到提示中。大型语言模型都擅长语言处理，包括摘要、主题识别和情感分析。当给出全文后，不仅得出的三个主题很好地反映了财报记录内容，为其提供支持的分论点：客户维护、Truvalue Labs ESG收购，以及减少差旅和办公成本，在整个财报记录中都有多次提及。

17229347656220

这些都是与2021年第一季度财报电话会议相关且准确的主题。在提供财报电话会议记录中的实际文本后，人工智能模型的表现明显好于仅依靠训练的数据来生成答案。

由此我们可知，询问财报中的比较宽泛的主题对于LLM来说是一个相对简单的请求；而当被问及财报中更具挑战性的细节问题时，这些模型的表现可能就会差强人意。

另外，用户还要知道的是，如果没有额外的插件或增强功能，LLM是无法从URL网址中获取网站文本的。因此，在输入内容时，您需要输入的是网页全文，而不是网址。

如果您确实输入了一个URL，那么得到的答案可能看似是人工智能模型已经获取原始文本的结果，但实际上这个答案是根据URL中的单词生成的幻觉。在以下示例中，模型在URL文本中看到“factset”和“财报电话会议”这两个词语，并再次对慧甚财报电话会议的主题做出最佳猜测。但输出内容是通用化的，并未反映实际记录。

17229348478276

要证明这一点，您可以使用TinyURL来缩短URL，删除完整单词的线索。这次，人工智能模型显示它无法浏览外部链接，需要您提供更多的上下文。

17229348375960

幻觉消除策略6：验证输出内容

验证人工智能输出内容的真实性对于揭示并纠正幻觉至关重要。对生成式人工智能采用基于风险的方法，并始终验证输出内容，尤其是对于基于事实的更高风险用例和大型语言模型之外的用例。

例如，生成式人工智能非常适合：

· 进行不受事实限制的创意写作

· 进行头脑风暴并生成创意

· 提供符合所需风格或清晰度的替代措辞

· 用被遗忘的书名或您所描述的重要人物来唤起您的记忆

17229348215046

语言模型的核心应用就是文本处理，并且大模型确实擅长此项工作。尽管输出的内容仍需人工审查，但这些模型在重新表述、总结、格式调整、语气转换或特定文本或主题提取等方面都展现了极高的适用性。

在多数情况下，针对模型训练数据中经常出现的常规知识领域，大模型也可以提供颇为可靠的见解与建议。例如，它会提出关于睡眠、营养、锻炼、友谊和压力管理的建议来作为帮助保持健康的常见方法。

但是，在面对高风险或专业性强的行业问题（如法律、医疗或金融）、严谨学科（如数学或编码）或特定文献引用时，对模型输出的细致审查与源头验证显得尤为关键。用户应将生成式人工智能看作是一名过于自信、急于取悦别人的实习生，而不是专家老师，其工作成果务必经过严谨复核。

幻觉消除策略7：引入检索式增强生成（RAG）

本文已经探讨了用户和人工智能模型交互的多种策略，但遏制幻觉的核心策略，或许只有在工程师才能采用。检索式增强生成(RAG)是在大模型提示中提供上下文的编程版本，也被认为是将答案建立在事实基础上。

借助RAG，系统首先会到一个可靠的数据库中寻找用户问题的答案。例如，大模型会浏览现有的帮助文档。然后，它会将数据库中的最佳匹配项与用户问题的文本结合起来，并让LLM来设计面向用户的会话响应。这种方法大大地减少了幻觉，因为它不依靠各种混合的训练数据来生成真实答案。

在我们的人工智能策略系列文章中将多次提到RAG，因为它是克服幻觉和其他一些挑战的关键技术。对于致力于优化语言模型的工程师而言，在大模型中集成RAG将会改善准确性、可解释性、加速知识更新，和增强基于用户的安全性。如需了解有关 RAG 的更多信息，请阅读我们的简短说明：减少生成式人工智能的幻觉。

结论

生成式人工智能可以帮助组织提高工作效率，改善客户和员工体验，并加速推进业务优先事项。了解幻觉（包括与事实不符的错误和逻辑错误）所产生的影响、幻觉产生的原因，以及消除幻觉的方法，将有助于您更加高效地使用人工智能技术。

作者简介

17229348632000

LUCY TANCREDI

技术战略计划高级副总裁

Lucy Tancredi是FactSet慧甚的技术战略计划高级副总裁。她负责在整个企业内利用人工智能来提高慧甚的竞争优势和客户体验。她的团队负责开发机器学习和NLP模型，其成果有助于打造创新的个性化产品并提高运营效率。她于1995年在慧甚开始了自己的职业生涯，一直负责领导全球工程团队，开发研究和分析产品以及企业技术。Tancredi拥有麻省理工学院计算机科学学士学位，以及哈佛大学教育学硕士学位。

欢迎与我们分享您在业务上的挑战： https://go.factset.com/zh/

免责声明: 本文内容仅代表作者个人观点，不代表mitrade官方立场，也不能作为投资建议。文章内容仅做参考，读者不应以本文作为任何投资依据。 mitrade对任何以本文为交易依据的结果不承担责任。 Mitrade亦不能保证本文内容的准确性。在做出任何投资决定之前，您应该寻求独立财务顾问的建议，以确保您了解风险。

差价合约（CFD）是杠杆性产品，有可能导致您损失全部资金。这些产品并不适合所有人，请谨慎投资。查阅详情

这篇文章有帮到你吗？

英特尔“豪赌”！跳过18A直攻14A，是弯道超车还是自陷巨坑？TradingKey - 业内传出消息，英特尔（INTC）正酝酿对其晶圆厂代工业务进行重大战略调整，计划跳过原定的Intel 18A（1.8纳米）工艺，直接推进更先进的14A（1.4纳米）工艺，旨在提升市场竞争力。原本18A对标台积电/三星的2纳米技术，是英特尔重夺制程领先的关键节点。但目前看来，该工艺对苹果、英伟达等大客户吸引力不足。而14A作为全球最先进的工艺，在能效和芯片密度上较18A提升1

作者 TradingKey

17 小时前

TradingKey - 业内传出消息，英特尔（INTC）正酝酿对其晶圆厂代工业务进行重大战略调整，计划跳过原定的Intel 18A（1.8纳米）工艺，直接推进更先进的14A（1.4纳米）工艺，旨在提升市场竞争力。原本18A对标台积电/三星的2纳米技术，是英特尔重夺制程领先的关键节点。但目前看来，该工艺对苹果、英伟达等大客户吸引力不足。而14A作为全球最先进的工艺，在能效和芯片密度上较18A提升1

降息预测：贝森特押注9月前高盛提前至9月非农数据将成关键 TradingKey - 美国财政部长贝森特（Scott Bessent）于周二（7月1日）表示，美联储会在9月前启动降息，并强调川普的关税政策不太可能如美联储预期的那样引发通胀。高盛也紧接着发布预测，称美联储首次降息将在9月。高盛在报告中预测，9月进行首次降息后，年内还将降息两次，累计下调75个基点，将利率降到3.50%至3.75%的区间。相比之前预测的12月首次降息，本次预测大幅提前。上述预测

作者 TradingKey

17 小时前

TradingKey - 美国财政部长贝森特（Scott Bessent）于周二（7月1日）表示，美联储会在9月前启动降息，并强调川普的关税政策不太可能如美联储预期的那样引发通胀。高盛也紧接着发布预测，称美联储首次降息将在9月。高盛在报告中预测，9月进行首次降息后，年内还将降息两次，累计下调75个基点，将利率降到3.50%至3.75%的区间。相比之前预测的12月首次降息，本次预测大幅提前。上述预测

美股行业视角下的参议院版减税法案：晶片股利好，光伏股缓忧 TradingKey - 美国参议院于7月1日以一票之差通过了特朗普的减税与支出法案，该版本法案拟对晶片制造商增加税收抵免额度且没有囊括此前市场担忧的对风能和太阳能项目的进口组件关税，晶片股和清洁能源股迎来利好。在参议院版本的「大美丽法案」中，若晶片制造商在现有《晶片与科学法案》剔除的2026年截止日期前在美国兴建新工厂，它们将有资格享受35%的投资税抵免，税收抵免比例高于目前的25%和预期的30

作者 TradingKey

17 小时前

TradingKey - 美国参议院于7月1日以一票之差通过了特朗普的减税与支出法案，该版本法案拟对晶片制造商增加税收抵免额度且没有囊括此前市场担忧的对风能和太阳能项目的进口组件关税，晶片股和清洁能源股迎来利好。在参议院版本的「大美丽法案」中，若晶片制造商在现有《晶片与科学法案》剔除的2026年截止日期前在美国兴建新工厂，它们将有资格享受35%的投资税抵免，税收抵免比例高于目前的25%和预期的30

美股三个月重回高位，华尔街继续看多下半年走势 TradingKey - 美股在6月30日迎来强劲收盘，标普500指数创下自今年2月以来的首个历史新高，以科技股为主的纳斯达克综合指数也自去年12月以来首次刷新高点。本轮上涨反映出投资者情绪回暖，其中大型科技股与半导体板块成为市场反弹的核心驱动。半导体与科技股领跑反弹行情英伟达（NVDA）与博通（AVGO）走势尤其抢眼。英伟达重新夺回全球最有价值公司的桂冠，总市值逼近4万亿美元。该股自4月初低点

作者 TradingKey

18 小时前

TradingKey - 美股在6月30日迎来强劲收盘，标普500指数创下自今年2月以来的首个历史新高，以科技股为主的纳斯达克综合指数也自去年12月以来首次刷新高点。本轮上涨反映出投资者情绪回暖，其中大型科技股与半导体板块成为市场反弹的核心驱动。半导体与科技股领跑反弹行情英伟达（NVDA）与博通（AVGO）走势尤其抢眼。英伟达重新夺回全球最有价值公司的桂冠，总市值逼近4万亿美元。该股自4月初低点

亚马逊机器人军团突破百万！机器人革命规模逼近人类员工 TradingKey - 据最新报道，亚马逊（AMZN）作为美国第二大私营雇主，其机器人部署已达到里程碑式突破，并即将在数量上超越人类员工。亚马逊周一宣布全球运营网络部署的机器人总量已突破100万台，第100万台机器人近期交付日本东京配送中心。公司股价周二报收220.46美元，处于近一月历史高位。TradingKey数据显示，华尔街分析师的平均目标价为242.538美元，且73位分析师均是持“持有

作者 TradingKey

18 小时前

TradingKey - 据最新报道，亚马逊（AMZN）作为美国第二大私营雇主，其机器人部署已达到里程碑式突破，并即将在数量上超越人类员工。亚马逊周一宣布全球运营网络部署的机器人总量已突破100万台，第100万台机器人近期交付日本东京配送中心。公司股价周二报收220.46美元，处于近一月历史高位。TradingKey数据显示，华尔街分析师的平均目标价为242.538美元，且73位分析师均是持“持有

实时报价