Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination?

要約

大規模言語モデル (LLM) の最近の進歩と、多数のベンチマークにおけるその高いパフォーマンスにもかかわらず、最近の研究では、LLM が幻覚や不誠実な推論に悩まされていることが明らかになりました。
この研究では、意味上の関連付けによって誘発される特定の種類の幻覚を研究しています。
具体的には、LLM が正しい推論パスに従うのではなく、プロンプト内の特定のキーワード/エンティティのバイアスからどの程度ショートカットするかを調査します。
この現象を定量化するために、私たちは EureQA と呼ばれる新しいプローブ方法とベンチマークを提案します。
LLM が最大限の確実性を持って正しく答える質問から開始し、重要なエンティティを証拠文で再帰的にマスクし、質問に答える前に一連の証拠に従ってマスクされたエンティティを見つけるようにモデルに求めます。
証拠の構築では、正解につながる可能性のある意味上の手がかり(実体)を、正解には直接結びつかないが連鎖的な推論プロセスが必要な注意をそらす手がかり(証拠)に意図的に置き換えます。
モデルが気が散る手がかりを迂回するのではなく、正しい推論チェーンをたどることができるかどうかを評価します。
既存の LLM には、正しい推論パスをたどり、貪欲なショートカットの試みに抵抗するために必要な機能が欠けていることがわかりました。
私たちは、気を散らす意味論的な関連付けがモデル幻覚を引き起こすことが多いことを示します。これは、現在の LLM 推論の妥当性を疑問視する強力な証拠です。

要約(オリジナル)

Despite the recent advancement in large language models (LLMs) and their high performances across numerous benchmarks, recent research has unveiled that LLMs suffer from hallucinations and unfaithful reasoning. This work studies a specific type of hallucination induced by semantic associations. Specifically, we investigate to what extent LLMs take shortcuts from certain keyword/entity biases in the prompt instead of following the correct reasoning path. To quantify this phenomenon, we propose a novel probing method and benchmark called EureQA. We start from questions that LLMs will answer correctly with utmost certainty, and mask the important entity with evidence sentence recursively, asking models to find masked entities according to a chain of evidence before answering the question. During the construction of the evidence, we purposefully replace semantic clues (entities) that may lead to the correct answer with distractor clues (evidence) that will not directly lead to the correct answer but require a chain-like reasoning process. We evaluate if models can follow the correct reasoning chain instead of short-cutting through distractor clues. We find that existing LLMs lack the necessary capabilities to follow correct reasoning paths and resist the attempt of greedy shortcuts. We show that the distractor semantic associations often lead to model hallucination, which is strong evidence that questions the validity of current LLM reasoning.

arxiv情報

著者 Bangzheng Li,Ben Zhou,Fei Wang,Xingyu Fu,Dan Roth,Muhao Chen
発行日 2024-03-13 09:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク