Neutralizing Bias in LLM Reasoning using Entailment Graphs

要約

LLMはしばしば、より複雑な形式の推論の基礎として広く見なされている自然言語推論(NLI)が可能であると主張されています。
しかし、最近の作品は、LLMがショートカットを構築するために命題記憶に過度に依存していることを証明されたバイアスのために、LLMSがNLIの幻覚に依然として悩まされていることを示しています。
問題を解決するために、監視されていないフレームワークを設計して、反事実的推論データを構築し、LLMSを微調整して証明のバイアスを減らします。
バイアスの削減を測定するために、NLIデータセットのバイアス副産物のバリエーションを構築し、仮説を変えないようにしながら、敷地内で施設でランダムに置き換えられます。
広範な評価は、私たちのフレームワークが証明バイアスから幻覚を大幅に減らすことができることを示しています。
次に、元のNLIデータセットとそのバイアス中立バージョンでのフレームワークで微調整されたLLMSをさらに評価します。ここでは、元のエンティティがランダムにサンプリングされたエンティティに置き換えられます。
広範な結果は、私たちのフレームワークが、オリジナルとバイアスに和ら化されたNLIデータセットの両方で一貫して推論パフォーマンスを改善することを示しています。

要約(オリジナル)

LLMs are often claimed to be capable of Natural Language Inference (NLI), which is widely regarded as a cornerstone of more complex forms of reasoning. However, recent works show that LLMs still suffer from hallucinations in NLI due to attestation bias, where LLMs overly rely on propositional memory to build shortcuts. To solve the issue, we design an unsupervised framework to construct counterfactual reasoning data and fine-tune LLMs to reduce attestation bias. To measure bias reduction, we build bias-adversarial variants of NLI datasets with randomly replaced predicates in premises while keeping hypotheses unchanged. Extensive evaluations show that our framework can significantly reduce hallucinations from attestation bias. Then, we further evaluate LLMs fine-tuned with our framework on original NLI datasets and their bias-neutralized versions, where original entities are replaced with randomly sampled ones. Extensive results show that our framework consistently improves inferential performance on both original and bias-neutralized NLI datasets.

arxiv情報

著者 Liang Cheng,Tianyi Li,Zhaowei Wang,Tianyang Liu,Mark Steedman
発行日 2025-03-14 17:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク