Molecular Facts: Desiderata for Decontextualization in LLM Fact Verification

要約

大規模言語モデル (LLM) 世代の自動事実検証は、幻覚と戦うためにますます広く使用されるようになってきています。
文献における主な緊張点は、このファクトチェックの粒度です。テキストの大きな塊はファクトチェックが困難ですが、命題のようなより原子的な事実は、正しく解釈するためのコンテキストが不足している可能性があります。
この研究では、これらの基本的な事実におけるコンテキストの役割を評価します。
私たちは、完全に原子的な事実は適切な表現ではないと主張し、分子的事実の 2 つの基準を定義します。それは、脱文脈性、またはそれらがどれだけうまく独立できるか、もう 1 つは最小性、または脱文脈性を達成するために追加される余分な情報がどれほど少ないかです。
私たちは、ミニマリティに対する脱文脈化の影響を定量化し、適切な量の情報を追加することを目的として、分子事実を自動的に生成するためのベースライン方法論を提示します。
私たちはさまざまな脱文脈化方法と比較し、曖昧な設定において分子的事実が最小性と事実検証の正確性のバランスを保っていることを発見しました。

要約(オリジナル)

Automatic factuality verification of large language model (LLM) generations is becoming more and more widely used to combat hallucinations. A major point of tension in the literature is the granularity of this fact-checking: larger chunks of text are hard to fact-check, but more atomic facts like propositions may lack context to interpret correctly. In this work, we assess the role of context in these atomic facts. We argue that fully atomic facts are not the right representation, and define two criteria for molecular facts: decontextuality, or how well they can stand alone, and minimality, or how little extra information is added to achieve decontexuality. We quantify the impact of decontextualization on minimality, then present a baseline methodology for generating molecular facts automatically, aiming to add the right amount of information. We compare against various methods of decontextualization and find that molecular facts balance minimality with fact verification accuracy in ambiguous settings.

arxiv情報

著者 Anisha Gunjal,Greg Durrett
発行日 2024-06-28 17:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク