要約
近年、大規模言語モデル (LLM) は、言語翻訳、質問応答、要約、ファクトチェックなどのさまざまな自然言語タスクの実行において大きな成功を収めていることが実証されています。LLM は人間のようなテキストを生成する優れた能力にもかかわらず、LLM は
一貫性のない応答で悪名高い — 入力クエリの意味を保持する変更により、一貫性のない応答が生じ、幻覚や脱獄などの LLM の脆弱性が原因となります。
既存の研究は、LLM の単純な言い換えベースの一貫性評価に焦点を当てており、LLM による論理的推論のさらに深い理解を必要とする複雑なクエリを無視しています。
したがって、私たちの研究では、否定、論理積、論理和などの原始的な論理演算子を使用した複雑な論理クエリの下での LLM の論理的矛盾に対処します。
テストベッドとして、実世界のナレッジ グラフ (KG) からの命題論理クエリを含むファクト チェック タスクにおける検索拡張 LLM を検討します。
私たちの貢献は 3 つあります。
ベンチマーク: 論理的に一貫した LLM に向けたコミュニティ開発のために、KG に対して 3 つの論理ファクトチェック データセットを導入します。
評価: 入力としての命題論理クエリに関する LLM の一貫性測定を提案し、既存の LLM、特に複雑なクエリに関して論理的な一貫性が欠如していることを実証します。
改善: KG コンテキストを使用した複雑なファクト チェック タスクにおける LLM の論理的一貫性を向上させるために、教師あり微調整を採用しています。
要約(オリジナル)
In recent years, large language models (LLMs) have demonstrated significant success in performing varied natural language tasks such as language translation, question-answering, summarizing, fact-checking, etc. Despite LLMs’ impressive ability to generate human-like texts, LLMs are infamous for their inconsistent responses — a meaning-preserving change in the input query results in an inconsistent response and attributes to vulnerabilities of LLMs such as hallucination, jailbreaking, etc. Consequently, existing research focuses on simple paraphrasing-based consistency assessment of LLMs, and ignores complex queries that necessitates an even better understanding of logical reasoning by an LLM. Our work therefore addresses the logical inconsistency of LLMs under complex logical queries with primitive logical operators, e.g., negation, conjunction, and disjunction. As a test bed, we consider retrieval-augmented LLMs on a fact-checking task involving propositional logic queries from real-world knowledge graphs (KGs). Our contributions are three-fold. Benchmark: We introduce three logical fact-checking datasets over KGs for community development towards logically consistent LLMs. Assessment: We propose consistency measures of LLMs on propositional logic queries as input and demonstrate that existing LLMs lack logical consistency, specially on complex queries. Improvement: We employ supervised fine-tuning to improve the logical consistency of LLMs on the complex fact-checking task with KG contexts.
arxiv情報
著者 | Bishwamittra Ghosh,Sarah Hasan,Naheed Anjum Arafat,Arijit Khan |
発行日 | 2024-12-20 17:42:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google