要約
言語モデルの出力における事実上の矛盾を正確に検出して修正することは、能力が向上するにつれてますます重要になっていますが、そうすることは非常に困難です。
原子の事実を追跡し、事実上の矛盾に対処するための新しい方法であるFactTrackを提案します。
重要なことに、FactTrackは、事実ごとに時間を取得した妥当性間隔も維持し、時間の経過とともに変化を可能にします。
高レベルでは、FactTrackは4段階のパイプラインで構成され、新しいイベントごとに世界の状態データ構造を更新します。(1)イベントを方向性の原子的事実に分解します。
(2)世界状態を使用して各原子の事実の妥当性間隔を決定する。
(3)世界州の既存の事実との矛盾を検出する。
そして最後に(4)世界の状態に新しい事実を追加し、既存の原子的事実を更新します。
構造化されたストーリーの概要で矛盾の検出にFactTrackを適用すると、llama2-7b-chatを使用したファクトトラックは、llama2-7b-chatを使用して公正なベースラインを大幅に上回り、GPT4ベースラインに匹敵するパフォーマンスを実現することがわかります。
さらに、GPT4を使用する場合、FactTrackはGPT4ベースラインを大幅に上回ります。
要約(オリジナル)
While accurately detecting and correcting factual contradictions in language model outputs has become increasingly important as their capabilities improve, doing so is highly challenging. We propose a novel method, FACTTRACK, for tracking atomic facts and addressing factual contradictions. Crucially, FACTTRACK also maintains time-aware validity intervals for each fact, allowing for change over time. At a high level, FACTTRACK consists of a four-step pipeline to update a world state data structure for each new event: (1) decompose the event into directional atomic facts; (2) determine the validity interval of each atomic fact using the world state; (3) detect contradictions with existing facts in the world state; and finally (4) add new facts to the world state and update existing atomic facts. When we apply FACTTRACK to contradiction detection on structured story outlines, we find that FACTTRACK using LLaMA2-7B-Chat substantially outperforms a fair baseline using LLaMA2-7B-Chat, and achieves performance comparable to a GPT4 baseline. Moreover, when using GPT4, FACTTRACK significantly outperforms the GPT4 baseline.
arxiv情報
著者 | Zhiheng Lyu,Kevin Yang,Lingpeng Kong,Daniel Klein |
発行日 | 2025-01-31 17:36:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google