NLI under the Microscope: What Atomic Hypothesis Decomposition Reveals

要約

原子命題へのテキストの分解は、入力および出力テキストの詳細な検査を可能にする柔軟なフレームワークです。
2つの自然言語推論タスク、従来のNLIと不使用のNLIで仮説の原子分解を使用して、原子サブ問題、または全体的な問題を解決するときにモデルの重量を量る必要がある巧妙な推論を形成します。
これらのアトミックサブプラームは、NLIの構造と不使用の推論の両方をさらに理解し、モデルの一貫性とさまざまな推論の理解を調べ、ベンチマークデータセットの例の多様性を測定するためのツールとして機能します。
我々の結果は、LLMSが原子NLIの論理的一貫性と不可能なNLIのサブ問題に依然として苦労していることを示しています。
最後に、不使用のNLI例の重要な原子サブ問題、またはラベル全体に最も貢献しているものを特定し、モデルの推論的一貫性を測定する方法を提案します。これは、モデルが異なるコンテキストで同じ事実について一貫して正しいまたは正しく正しいまたは誤った予測を行うように設計されたメトリックです。

要約(オリジナル)

Decomposition of text into atomic propositions is a flexible framework allowing for the closer inspection of input and output text. We use atomic decomposition of hypotheses in two natural language reasoning tasks, traditional NLI and defeasible NLI, to form atomic sub-problems, or granular inferences that models must weigh when solving the overall problem. These atomic sub-problems serve as a tool to further understand the structure of both NLI and defeasible reasoning, probe a model’s consistency and understanding of different inferences, and measure the diversity of examples in benchmark datasets. Our results indicate that LLMs still struggle with logical consistency on atomic NLI and defeasible NLI sub-problems. Lastly, we identify critical atomic sub-problems of defeasible NLI examples, or those that most contribute to the overall label, and propose a method to measure the inferential consistency of a model, a metric designed to capture the degree to which a model makes consistently correct or incorrect predictions about the same fact under different contexts.

arxiv情報

著者 Neha Srikanth,Rachel Rudinger
発行日 2025-03-07 15:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク