Selective Annotation via Data Allocation: These Data Should Be Triaged to Experts for Annotation Rather Than the Model

要約

限られた予算で高品質のアノテーションを取得するには、半自動アノテーション手法が一般的に使用されます。この手法では、データの一部に専門家がアノテーションを付け、残りのデータのアノテーションを完了するようにモデルがトレーニングされます。
ただし、これらの方法は主に、モデルの予測能力を向上させるために専門家の注釈用の有益なデータ (つまり、トリアージから人間へのデータ) を選択することに重点を置いており、残りのデータは無差別にモデルの注釈 (つまり、トリアージからモデルへのデータ) に割り当てられます。
データ)。
これは、モデルが正確に注釈を付けることができる簡単なデータが不必要に専門家に割り当てられたり、ハードデータがモデルによって誤って分類されたりする可能性があるため、注釈の予算割り当ての非効率につながる可能性があります。
その結果、全体的な注釈の品質が低下する可能性があります。
この問題に対処するために、SANT と呼ばれる選択的アノテーション フレームワークを提案します。
提案されたエラー認識トリアージおよび二重重み付けメカニズムを通じて、トリアージから人間へのデータとトリアージからモデルへのデータの両方を効果的に利用します。
そのため、有益なデータやハード データは注釈のためにエキスパートに割り当てられ、簡単なデータはモデルによって処理されます。
実験結果は、SANT が他のベースラインを常に上回っており、エキスパート ワーカーとモデル ワーカーの両方にデータを適切に割り当てることで、より高品質のアノテーションを実現できることを示しています。
当社は予算の制約内でデータ アノテーションに関する先駆的な作業を提供し、将来のトリアージ ベースのアノテーション研究のランドマークを確立します。

要約(オリジナル)

To obtain high-quality annotations under limited budget, semi-automatic annotation methods are commonly used, where a portion of the data is annotated by experts and a model is then trained to complete the annotations for the remaining data. However, these methods mainly focus on selecting informative data for expert annotations to improve the model predictive ability (i.e., triage-to-human data), while the rest of the data is indiscriminately assigned to model annotation (i.e., triage-to-model data). This may lead to inefficiencies in budget allocation for annotations, as easy data that the model could accurately annotate may be unnecessarily assigned to the expert, and hard data may be misclassified by the model. As a result, the overall annotation quality may be compromised. To address this issue, we propose a selective annotation framework called SANT. It effectively takes advantage of both the triage-to-human and triage-to-model data through the proposed error-aware triage and bi-weighting mechanisms. As such, informative or hard data is assigned to the expert for annotation, while easy data is handled by the model. Experimental results show that SANT consistently outperforms other baselines, leading to higher-quality annotation through its proper allocation of data to both expert and model workers. We provide pioneering work on data annotation within budget constraints, establishing a landmark for future triage-based annotation studies.

arxiv情報

著者 Chen Huang,Yang Deng,Wenqiang Lei,Jiancheng Lv,Ido Dagan
発行日 2024-05-20 14:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク