Noise in Relation Classification Dataset TACRED: Characterization and Reduction

要約

この文書の主要な目的は 2 つあります。
まず、ノイズの主な原因を特徴付けるためのモデルベースのアプローチを検討します。
次に、ノイズの多いインスタンスを特定します。
最初の目的に向けて、私たちは最先端 (SOTA) モデルの予測とパフォーマンスを分析して、データセット内のノイズの根本原因を特定します。
TACRED の分析では、データセット内のノイズの大部分が、負の例である無関係としてラベル付けされたインスタンスに由来していることが示されています。
2 番目の目的では、除去と再アノテーションのために潜在的にノイズの多い例を自動的に識別する 2 つの最近傍ベースの戦略を検討します。
本質的戦略 (IS) と呼ばれる最初の戦略は、肯定的な例がクリーンであるという前提に基づいています。
したがって、偽陰性予測を使用してノイズの多い陰性例を特定しました。
一方、外部戦略と呼ばれる 2 番目のアプローチは、データセットのクリーンなサブセットを使用して、ノイズの多いネガティブな例を特定することに基づいています。
最後に、削除され再アノテーションが付けられたデータセットで SOTA モデルを再トレーニングしました。
IS 後に TACRED-E でトレーニングされた 2 つの SOTA モデルに基づく実験結果では、平均 4% の F1 スコアの向上が示されていますが、再アノテーション (TACRED-R) では元の結果は改善されません。
ただし、ES の後、SOTA モデルは、削除された (TACRED-EN) データセットと再アノテーションされた (TACRED-RN) データセットのそれぞれでトレーニングされた場合、平均 F1 スコアがそれぞれ 3.8% と 4.4% 向上しました。
陽性例をクリーニングするために ES をさらに拡張したところ、削除されたデータセット (TACRED-ENP) と再アノテーションされたデータセット (TACRED-RNP) でそれぞれ平均パフォーマンスが 5.8% と 5.6% 向上しました。

要約(オリジナル)

The overarching objective of this paper is two-fold. First, to explore model-based approaches to characterize the primary cause of the noise. in the RE dataset TACRED Second, to identify the potentially noisy instances. Towards the first objective, we analyze predictions and performance of state-of-the-art (SOTA) models to identify the root cause of noise in the dataset. Our analysis of TACRED shows that the majority of the noise in the dataset originates from the instances labeled as no-relation which are negative examples. For the second objective, we explore two nearest-neighbor-based strategies to automatically identify potentially noisy examples for elimination and reannotation. Our first strategy, referred to as Intrinsic Strategy (IS), is based on the assumption that positive examples are clean. Thus, we have used false-negative predictions to identify noisy negative examples. Whereas, our second approach, referred to as Extrinsic Strategy, is based on using a clean subset of the dataset to identify potentially noisy negative examples. Finally, we retrained the SOTA models on the eliminated and reannotated dataset. Our empirical results based on two SOTA models trained on TACRED-E following the IS show an average 4% F1-score improvement, whereas reannotation (TACRED-R) does not improve the original results. However, following ES, SOTA models show the average F1-score improvement of 3.8% and 4.4% when trained on respective eliminated (TACRED-EN) and reannotated (TACRED-RN) datasets respectively. We further extended the ES for cleaning positive examples as well, which resulted in an average performance improvement of 5.8% and 5.6% for the eliminated (TACRED-ENP) and reannotated (TACRED-RNP) datasets respectively.

arxiv情報

著者 Akshay Parekh,Ashish Anand,Amit Awekar
発行日 2023-11-21 02:35:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク