在本系列的開篇之作《人工智慧策略系列：LLM 的工作原理及限制》中，我們探討了語言模型是如何預測並編制出連貫文本的；LLM並不會查找數據，它們不是百科全書，也不會驗證自己的輸出。所以，就像手機上的輸入法預測一樣，LLM產生的文字並不總是真實的。更何況，LLM也受限於訓練資料的有限範圍、資訊的時效性不足，以及可能潛藏的錯誤與偏見。 LLM的全部目的是生成文本，因此它們透過訓練和優化來提供一些可能不準確的答案，而不是回答「我不知道」。

面對日益增多的「幻覺」輸出的批評，LLM廠商正積極開始使用附加的解決方案來消除幻覺，例如結合事實核查、用檢索到的數據（用Web瀏覽器插件等方法）來確定答案，以及在新模型中改進訓練資料和強化學習過程。

LLM的幻覺成為了新聞的焦點，也造成了信譽危機。例如，Google Bard就因其關於詹姆斯·韋布望遠鏡的錯誤訊息而受到了非常嚴重的批評，這對Google當時的股價產生了嚴重的財務影響。如果您在工作中使用LLM，請務必檢查輸出內容的準確性，並在雇主的指導下工作。

此外，眾所周知，LLM還會編造各種資訊來源和引用內容，造成了嚴重的法律問題（我們將在以後的文章中討論這些問題）。

下面是一個與事實不符的錯誤的範例。人工智慧模型收到了一個有點刁鑽的問題：完全徒步穿越英吉利海峽的世界紀錄是多少？ LLM的回答中提到的人確實曾經創造過橫渡英吉利海峽的世界紀錄，但有幾處不準確之處：

· 他是遊過去的，而不是步行

· 他花了7個小時，而不是14小時51分鐘。

他的記錄是在2005年創下的，而不是2020年，而該記錄在2007年被打破，遠早於該模型2021年的訓練資料截止日期

17229343762884

對於預測文本模型來說，人工智慧建立了一個包含合理或可能單字的文本，而不是事實數據，這並不奇怪。記住，LLM是一個語言模型，而不是一個知識模型。我們不應該把它當作百科全書或資料庫來使用，除非您打算仔細檢查它的所有答案。

下面是一個有邏輯錯誤的幻覺範例。我要求提供一個以字母b開頭且與“revolt”（反抗）同義的單字。

17229343881830

如上所示，在一串提示和回應對話中，模型產生了錯誤的答案（幻覺），而不是說「我無法很好地回答這個問題」。它提出了“rebellion”（反叛）、“uprising”（起義）、“mutiny”（不服從）等單字——儘管這些字都不是以字母b開頭的。

不過，當獲得一個更簡單的起始詞時，這個模型就能夠想出以b開頭的單字——當我詢問與「wind」（風）同義的單字時，它會提出「breeze」（微風），而不是產生的幻覺答案。

17229343983781

幸運的是，有幾種策略可以消除幻覺，包括：

1. 提高認識

2. 使用更高階的模型

3. 提供明確的指令

4. 提供範例答案

5. 提供完整的上下文

6. 驗證輸出內容

7. 實作檢索式增強生成方法

幻覺消除策略1：提高意識

本系列的開頭之作致力於讓您更直觀地了解大型語言模型背後的機制。而本文旨在闡明大型語言模型的能力和局限性，以幫助您更有效和安全地使用它們。透過了解大型語言模型的能力和局限性，您將能夠設計出可獲得更可靠答案的問題（提示），並學會以更具批判性地的眼光來評估這些答案。換句話說，您將掌握如何持續有效地利用該模型的優勢和能力。

幻覺消除策略2：使用更高階的模型

遏制邏輯謬誤的一個簡單方法是使用更高級的語言模型。目前OpenAI的GPT3.5是一個免費模型，但付費版本GPT-4（也稱為ChatGPT Plus）在處理複雜語言或邏輯的任務時往往能展現更出色的表現。值得注意的是，GPT-4亦非盡善盡美，它具有延遲、高成本，及可能存在的準確性下降等問題，所以它並不是一個萬無一失的解決方案。

對於負責為特定任務挑選最佳語言模型的軟體工程師而言，他們可以參考分析各種模型的研究報告（如下圖），這份報告分析了Meta、Anthropic、Google、OpenAI的LLM以及開源模型。研究評估了各種模型的真實性以及邏輯能力和防害機制等指標。但請務必牢記，許多這樣的模型——以及它們的相對優勢和劣勢——會隨著時間的推移而演變。

17229344239821

回到以b開頭的revolt同義詞這個例子，GPT-4（更高階的模型）能夠提出若干解。

17229344319120

幻覺消除策略3：提供明確的指令

提示工程——精心選擇提示詞以產生最佳人工智慧輸出的做法——為我們提供了接下來的三種方法。您可以透過在提示中明確堅持這些提示詞來獲得更準確的結果。當我指示較低階的模型確認其給出的revolt的五個同義詞確實是以b開頭時，它返回了所有以b開頭的單字（不過奇怪的是，它說bustle[喧鬧]不是以b 開頭的）。

17229344446453

但是，堅持準確性並不總是有效，如下面的例子所示。在新的聊天中，使用相同的提示所獲得的單字全都不是以b開頭，而且模型還錯誤地指出五個單字中有兩個是以b開頭。

17229344545759

對於重要的問題，有一種基於指令的方法通常能產生更好的答案，我們稱之為「思維鏈」方法。在這種方法中，您可以要求模型將問題分解成若干可理解的語段，並在逐步得出最終解決方案的過程中解釋其想法。最後，明確指示模型「沒有答案比錯誤答案更好」的提示通常會防止產生幻覺結果。

幻覺消除策略4：提供範例答案

您也可以為模型提供一個正確答案的範例，以幫助您從人工智慧獲得更佳的答案。我在提示中給了兩個以b開頭的revolt同義詞範例（betray[背叛]和backlash[強烈抵制]）。這次，AI 模型成功給了另一個單字。

17229344642671

幻覺消除策略5：提供完整的上下文

還有一個方法是在我們的提示中提供完整的上下文。例如，我向模型詢問了FactSet慧甚從2020年12月（我們的財年是9月至第二年8月）開始的2021年第一季財報電話會議中的主要主題，該會議發生在模型的訓練截止日期之前。人工智慧模型找出的三個主題（和支援點）：強勁的財務表現、持續的創新投資和產品服務擴展乍看之下很令人信服。

但將人工智慧產生的摘要與實際財報記錄進行比較後發現，模型給出的第一個主題中引用的具體財務數據是不正確的。這個季度確實表現強勁，引用的數據也大致正確，但它們並不是公開報告的實際業績數據。

17229344776060

模型給出的第二個主題是創新投資。雖然創新是慧甚財報電話會議的常見主題，但「創新」一詞並未出現在2021年第一季的財報記錄中。

第三個主題是產品擴展，並特別提到了環境、社會和治理(ESG)及私募市場。雖然公開報告的實際記錄中提到ESG（因為收購了一家ESG數據公司），但該季度並沒有提到私募市場。

所以最後，模型給出的三個主題都是錯誤的。它們看似不錯，如果您讓熟悉慧甚的人猜測一下任何一個季度財報記錄中的主題，這個模型的輸出感覺上似乎是可信的。而這也正是LLM的工作：它會針對一個給定問題預測（即編造）合理答案。產生的文本是基於通用語言模式的預測，而不是基於研究的事實。

這個問題的最佳解決辦法是提供完整的上下文。在本範例中，是將實際記錄的整個文字都貼到提示中。大型語言模型都擅長語言處理，包括摘要、主題識別和情感分析。當給予全文後，不僅得出的三個主題很好地反映了財報記錄內容，為其提供支持的分論點：客戶維護、Truvalue Labs ESG收購，以及減少差旅和辦公成本，在整個財報記錄中都有多次提及。

17229344874404

這些都是與2021年第一季財報電話會議相關且準確的主題。在提供財報電話會議記錄中的實際文字後，人工智慧模式的表現明顯優於僅依靠訓練的資料來產生答案。

由此我們可知，詢問財報中的比較寬泛的主題對於LLM來說是一個相對簡單的請求；而當被問及財報中更具挑戰性的細節問題時，這些模型的表現可能就會差強人意。

另外，使用者還要知道的是，如果沒有額外的插件或增強功能，LLM是無法從URL網址中取得網站文字的。因此，在輸入內容時，您需要輸入的是網頁全文，而不是網址。

如果您確實輸入了一個URL，那麼得到的答案可能看似是人工智慧模型已經獲取原始文字的結果，但實際上這個答案是根據URL中的單字產生的幻覺。在以下範例中，模型在URL文本中看到「factset」和「財報電話會議」這兩個詞語，並再次對慧甚財報電話會議的主題做出最佳猜測。但輸出內容是通用化的，並未反映實際記錄。

17229344986136

要證明這一點，您可以使用TinyURL來縮短URL，刪除完整單字的線索。這次，人工智慧模型顯示它無法瀏覽外部鏈接，需要您提供更多的上下文。

17229345072179

幻覺消除策略6：驗證輸出內容

驗證人工智慧輸出內容的真實性對於揭示並糾正幻覺至關重要。對生成式人工智慧採用基於風險的方法，並始終驗證輸出內容，尤其是基於事實的更高風險用例和大型語言模型以外的用例。

例如，生成式人工智慧非常適合：

· 進行不受事實限制的創意寫作

· 進行腦力激盪並生成創意

· 提供符合所需風格或清晰度的替代措辭

· 用被遺忘的書名或您所描述的重要人物來喚起您的記憶

17229345175732

語言模型的核心應用就是文字處理，而大模型確實擅長這項工作。儘管輸出的內容仍需人工審查，但這些模型在重新表述、總結、格式調整、語氣轉換或特定文本或主題提取等方面都展現了極高的適用性。

在多數情況下，針對模型訓練資料中常出現的常規知識領域，大模型也可以提供相當可靠的見解與建議。例如，它會提出關於睡眠、營養、運動、友誼和壓力管理的建議來作為幫助保持健康的常見方法。

但是，在面對高風險或專業性強的行業問題（如法律、醫療或金融）、嚴謹學科（如數學或編碼）或特定文獻引用時，對模型輸出的細緻審查與源頭驗證顯得尤為關鍵。使用者應將生成式人工智慧視為過於自信、急於取悅別人的實習生，而不是專家老師，其工作成果務必經過嚴謹復核。

幻覺消除策略7：引入檢索式增強生成（RAG）

本文已經探討了使用者和人工智慧模型互動的多種策略，但遏制幻覺的核心策略，或許只有在工程師才能採用。檢索式增強生成(RAG)是在大模型提示中提供上下文的程式版本，也被認為是將答案建立在事實基礎上。

借助RAG，系統首先會到一個可靠的資料庫中尋找使用者問題的答案。例如，大模型會瀏覽現有的說明文件。然後，它會將資料庫中的最佳匹配項與使用者問題的文字結合起來，並讓LLM來設計面向使用者的會話回應。這種方法大大減少了幻覺，因為它不依靠各種混合的訓練資料來產生真實答案。

在我們的人工智慧策略系列文章中將多次提到RAG，因為它是克服幻覺和其他一些挑戰的關鍵技術。對於致力於優化語言模型的工程師而言，在大模型中整合RAG將會改善準確性、可解釋性、加速知識更新，並增強基於使用者的安全性。如需了解有關 RAG 的更多信息，請閱讀我們的簡短說明：減少生成式人工智慧的幻覺。

結論

生成式人工智慧可以幫助組織提高工作效率，改善客戶和員工體驗，並加速推進業務優先事項。了解幻覺（包括與事實不符的錯誤和邏輯錯誤）所產生的影響、幻覺產生的原因，以及消除幻覺的方法，將有助於您更有效率地使用人工智慧技術。

作者簡介

1722934527400

露西·坦克雷迪

技術策略計劃資深副總裁

Lucy Tancredi是FactSet慧甚的技術策略計畫資深副總裁。她負責在整個企業內利用人工智慧來提高慧甚的競爭優勢和客戶體驗。她的團隊負責開發機器學習和NLP模型，其成果有助於打造創新的個人化產品並提高營運效率。她於1995年在慧甚開始了自己的職業生涯，一直負責領導全球工程團隊，開發研究和分析產品以及企業技術。 Tancredi擁有麻省理工學院電腦科學學士學位，以及哈佛大學教育學碩士學位。