Annotation Sensitivity: Training Data Collection Methods Affect Model Performance

要約

人間のアノテーターからトレーニング データが収集される場合、アノテーションツールの設計、アノテーターに与えられる指示、アノテーターの特性、およびアノテーターの相互作用がトレーニング データに影響を与える可能性があります。
この研究は、アノテーション計測器を作成する際の設計上の選択が、結果として得られるアノテーションでトレーニングされたモデルにも影響を与えることを示しています。
アノテーション データ収集方法がアノテーション自体、および下流モデルのパフォーマンスと予測に及ぼす影響を指すために、アノテーション感度という用語を導入します。
アノテーションツールの 5 つの実験条件でヘイトスピーチと不快な言葉のアノテーションを収集し、アノテーターを条件にランダムに割り当てます。
次に、結果として得られる 5 つのデータセットそれぞれで BERT モデルを微調整し、各条件のホールドアウト部分でモデルのパフォーマンスを評価します。
1) ヘイトスピーチ/攻撃的な言語のアノテーションの割合、2) モデルのパフォーマンス、3) モデルの予測、4) モデルの学習曲線の条件の間には、かなりの違いがあることがわかりました。
私たちの結果は、機械学習の文献ではほとんど注目されていないアノテーションツールが果たす重要な役割を強調しています。
私たちは、機器の設計におけるベストプラクティスの開発に情報を提供するために、機器が注釈にどのように、そしてなぜ影響を与えるのかについてさらなる研究を求めています。

要約(オリジナル)

When training data are collected from human annotators, the design of the annotation instrument, the instructions given to annotators, the characteristics of the annotators, and their interactions can impact training data. This study demonstrates that design choices made when creating an annotation instrument also impact the models trained on the resulting annotations. We introduce the term annotation sensitivity to refer to the impact of annotation data collection methods on the annotations themselves and on downstream model performance and predictions. We collect annotations of hate speech and offensive language in five experimental conditions of an annotation instrument, randomly assigning annotators to conditions. We then fine-tune BERT models on each of the five resulting datasets and evaluate model performance on a holdout portion of each condition. We find considerable differences between the conditions for 1) the share of hate speech/offensive language annotations, 2) model performance, 3) model predictions, and 4) model learning curves. Our results emphasize the crucial role played by the annotation instrument which has received little attention in the machine learning literature. We call for additional research into how and why the instrument impacts the annotations to inform the development of best practices in instrument design.

arxiv情報

著者 Christoph Kern,Stephanie Eckman,Jacob Beck,Rob Chew,Bolei Ma,Frauke Kreuter
発行日 2024-01-22 15:05:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ME, stat.ML パーマリンク