Logical Consistency of Large Language Models in Fact-checking

要約

近年、大規模な言語モデル(LLMS)は、LLMSが人間のようなテキストを生成する印象的な能力にもかかわらず、言語翻訳、質問回答、要約、ファクトチェックなどのさまざまな自然言語タスクの実行に大きな成功を示しています。
幻覚。
その結果、既存の研究は、LLMの単純な言い換えベースの一貫性評価に焦点を当てており、LLMによる論理的推論のより良い理解を必要とする複雑なクエリを無視します。
したがって、私たちの研究は、原始的な論理演算子、例えば否定、接続詞、および分離との複雑な論理クエリの下でのLLMの論理的矛盾に対処しています。
テストベッドとして、知識グラフ(KG)からの命題ロジッククエリを含むファクトチェックタスクで検索されたAugmented LLMSを検討します。
私たちの貢献は3つあります。
ベンチマーク:コミュニティ開発のために、論理的に一貫したLLMに向けて、KGSで3つの論理的なファクトチェックデータセットを導入します。
評価:命題論理クエリに関するLLMの一貫性測定を提案し、既存のLLMが特に複雑なクエリでは論理的な一貫性がないことを示します。
改善:私たちは、KGコンテキストを使用した複雑なファクトチェックタスクでのLLMの論理的一貫性を改善するために、監視された微調整を採用しています。
ソースコードとベンチマークを利用可能にしました。

要約(オリジナル)

In recent years, large language models (LLMs) have demonstrated significant success in performing varied natural language tasks such as language translation, question-answering, summarizing, fact-checking, etc. Despite LLMs’ impressive ability to generate human-like texts, LLMs are infamous for their inconsistent responses – a meaning-preserving change in the input query results in an inconsistent response and attributes to vulnerabilities of LLMs such as hallucination. Consequently, existing research focuses on simple paraphrasing-based consistency assessment of LLMs, and ignores complex queries that necessitate an even better understanding of logical reasoning by an LLM. Our work therefore addresses the logical inconsistency of LLMs under complex logical queries with primitive logical operators, e.g., negation, conjunction, and disjunction. As a test bed, we consider retrieval-augmented LLMs on a fact-checking task involving propositional logic queries from knowledge graphs (KGs). Our contributions are threefold. Benchmark: We introduce three logical fact-checking datasets over KGs for community development towards logically consistent LLMs. Assessment: We propose consistency measures of LLMs on propositional logic queries and demonstrate that existing LLMs lack logical consistency, especially on complex queries. Improvement: We employ supervised fine-tuning to improve the logical consistency of LLMs on the complex fact-checking task with KG contexts. We have made our source code and benchmarks available.

arxiv情報

著者 Bishwamittra Ghosh,Sarah Hasan,Naheed Anjum Arafat,Arijit Khan
発行日 2025-02-28 17:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク