Is There a One-Model-Fits-All Approach to Information Extraction? Revisiting Task Definition Biases

要約

定義バイアスは、モデルを誤解させる可能性がある否定的な現象です。
情報抽出における定義の偏りは、異なるドメインのデータセット間だけでなく、同じドメインを共有するデータセット内にも現れます。
我々は、IE における 2 種類の定義バイアスを特定します。1 つは情報抽出データセット間のバイアス、もう 1 つは情報抽出データセットと命令調整データセット間のバイアスです。
定義バイアスを系統的に調査するために、3 つの精査実験を行って定量的に分析し、定義バイアスを解決する際の統一情報抽出と大規模言語モデルの限界を発見します。
情報抽出における定義バイアスを軽減するために、定義バイアスの測定、バイアスを意識した微調整、タスク固有のバイアス軽減から構成される多段階フレームワークを提案します。
実験結果は、定義バイアスに対処する際のフレームワークの有効性を示しています。
この論文のリソースは https://github.com/EZ-hwh/definition-bias にあります。

要約(オリジナル)

Definition bias is a negative phenomenon that can mislead models. Definition bias in information extraction appears not only across datasets from different domains but also within datasets sharing the same domain. We identify two types of definition bias in IE: bias among information extraction datasets and bias between information extraction datasets and instruction tuning datasets. To systematically investigate definition bias, we conduct three probing experiments to quantitatively analyze it and discover the limitations of unified information extraction and large language models in solving definition bias. To mitigate definition bias in information extraction, we propose a multi-stage framework consisting of definition bias measurement, bias-aware fine-tuning, and task-specific bias mitigation. Experimental results demonstrate the effectiveness of our framework in addressing definition bias. Resources of this paper can be found at https://github.com/EZ-hwh/definition-bias

arxiv情報

著者 Wenhao Huang,Qianyu He,Zhixu Li,Jiaqing Liang,Yanghua Xiao
発行日 2024-03-25 03:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク