WiCE: Real-World Entailment for Claims in Wikipedia

要約

テキスト含意のモデルは、事実確認、質問応答における前提検証、および生成モデルの出力が情報源に忠実であることの検証などの設定にますます適用されています。
ただし、そのようなアプリケーションは、既存のデータセットが構築されている設定とはかなりかけ離れています。WiCE は、テキスト内の主張の検証を中心とした新しいテキスト含意データセットであり、ウィキペディアの現実世界の主張と証拠に基づいて構築され、きめの細かい注釈が付けられています。
ウィキペディアでは、1 つまたは複数の Web ページを引用している文章を収集し、それらのページのコンテンツがそれらの文章を含んでいるかどうかに注釈を付けます。
テキストのわずかな誤解から、証拠で証明されていない文の小さな側面まで、否定的な例が自然に発生します。
私たちの注釈は、仮説のサブセンテンス単位であり、GPT-3 によって自動的に分解され、それぞれがソース ドキュメントからの証拠センテンスのサブセットでラベル付けされます。
データセットの実際の主張には、困難な検証問題が含まれていることを示し、このデータセットで既存のアプローチのベンチマークを行います。
さらに、GPT-3 によってクレームを分解することでクレームの複雑さを軽減すると、さまざまなドメインで含意モデルのパフォーマンスが向上することを示します。

要約(オリジナル)

Models for textual entailment have increasingly been applied to settings like fact-checking, presupposition verification in question answering, and validating that generation models’ outputs are faithful to a source. However, such applications are quite far from the settings that existing datasets are constructed in. We propose WiCE, a new textual entailment dataset centered around verifying claims in text, built on real-world claims and evidence in Wikipedia with fine-grained annotations. We collect sentences in Wikipedia that cite one or more webpages and annotate whether the content on those pages entails those sentences. Negative examples arise naturally, from slight misinterpretation of text to minor aspects of the sentence that are not attested in the evidence. Our annotations are over sub-sentence units of the hypothesis, decomposed automatically by GPT-3, each of which is labeled with a subset of evidence sentences from the source document. We show that real claims in our dataset involve challenging verification problems, and we benchmark existing approaches on this dataset. In addition, we show that reducing the complexity of claims by decomposing them by GPT-3 can improve entailment models’ performance on various domains.

arxiv情報

著者 Ryo Kamoi,Tanya Goyal,Juan Diego Rodriguez,Greg Durrett
発行日 2023-03-02 17:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク