要約
ドキュメントレベルの関係抽出 (RE) モデルをトレーニングおよび評価するために、多くのデータセットが開発されています。
これらのほとんどは、実世界のデータを使用して構築されています。
実世界のデータに基づいてトレーニングされた RE モデルには事実によるバイアスが存在することが示されています。
この問題を評価し、対処するために、エンティティ置換を使用したドキュメントレベルの関係抽出データセットに対する反事実データ生成アプローチである CovEReD を紹介します。
まず、事実データに基づいてトレーニングされたモデルが一貫性のない動作を示すことを示します。つまり、モデルは事実データからトリプルを正確に抽出しますが、反事実的な変更後は同じトリプルを抽出できません。
この矛盾は、事実データに基づいてトレーニングされたモデルが、トリプルを抽出するために入力コンテキスト $\unicode{x2013}$ ではなく、特定のエンティティや外部知識 $\unicode{x2013}$ などの偽の信号に依存していることを示唆しています。
CovEReD を使用して文書レベルの反事実データを生成し、それらに基づいてモデルをトレーニングすることにより、RE パフォーマンスへの影響を最小限に抑えながら一貫性が維持されることを示します。
私たちは、CovEReD パイプラインと、反事実の RE 文書のデータセットである Re-DocRED-CF をリリースし、文書レベルの RE の不一致の評価と対処を支援します。
要約(オリジナル)
Many datasets have been developed to train and evaluate document-level relation extraction (RE) models. Most of these are constructed using real-world data. It has been shown that RE models trained on real-world data suffer from factual biases. To evaluate and address this issue, we present CovEReD, a counterfactual data generation approach for document-level relation extraction datasets using entity replacement. We first demonstrate that models trained on factual data exhibit inconsistent behavior: while they accurately extract triples from factual data, they fail to extract the same triples after counterfactual modification. This inconsistency suggests that models trained on factual data rely on spurious signals such as specific entities and external knowledge $\unicode{x2013}$ rather than on the input context $\unicode{x2013}$ to extract triples. We show that by generating document-level counterfactual data with CovEReD and training models on them, consistency is maintained with minimal impact on RE performance. We release our CovEReD pipeline as well as Re-DocRED-CF, a dataset of counterfactual RE documents, to assist in evaluating and addressing inconsistency in document-level RE.
arxiv情報
著者 | Ali Modarressi,Abdullatif Köksal,Hinrich Schütze |
発行日 | 2024-10-15 13:37:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google