要約
アクティブ ラーニング (AL) は、最も有益なサンプルに戦略的に注釈を付けることで、人による注釈収集の高いコストに対処します。
ただし、主観的な NLP タスクの場合、人間の判断のばらつきを把握するには、アノテーション プロセスに幅広い視点を組み込むことが重要です。
データ サンプリング後のアノテーター選択戦略を組み込んだアノテーター中心のアクティブ ラーニング (ACAL) を導入します。
私たちの目的は 2 つあります。1) 人間の判断の多様性を効率的に近似すること、2) 少数派と多数派の視点を同等に評価するアノテーター中心のメトリクスを使用してモデルのパフォーマンスを評価することです。
私たちは、従来の人間中心の評価指標と新しい人間中心の評価指標の両方を採用して、7 つの主観的な NLP タスクにわたって複数のアノテーター選択戦略を実験します。
私たちの調査結果は、ACAL がデータ効率を向上させ、アノテーター中心のパフォーマンス評価に優れていることを示しています。
ただし、その成功は、サンプルとなる十分に大規模で多様なアノテーターのプールが利用できるかどうかにかかっています。
要約(オリジナル)
Active Learning (AL) addresses the high costs of collecting human annotations by strategically annotating the most informative samples. However, for subjective NLP tasks, incorporating a wide range of perspectives in the annotation process is crucial to capture the variability in human judgments. We introduce Annotator-Centric Active Learning (ACAL), which incorporates an annotator selection strategy following data sampling. Our objective is two-fold: 1) to efficiently approximate the full diversity of human judgments, and 2) to assess model performance using annotator-centric metrics, which value minority and majority perspectives equally. We experiment with multiple annotator selection strategies across seven subjective NLP tasks, employing both traditional and novel, human-centered evaluation metrics. Our findings indicate that ACAL improves data efficiency and excels in annotator-centric performance evaluations. However, its success depends on the availability of a sufficiently large and diverse pool of annotators to sample from.
arxiv情報
著者 | Michiel van der Meer,Neele Falk,Pradeep K. Murukannaiah,Enrico Liscio |
発行日 | 2024-10-23 16:12:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google