Selective Annotation via Data Allocation: These Data Should Be Triaged to Experts for Annotation Rather Than the Model


ただし、これらの方法は主に、モデルの予測能力を向上させるために専門家の注釈用の有益なデータ (つまり、トリアージから人間へのデータ) を選択することに重点を置いており、残りのデータは無差別にモデルの注釈 (つまり、トリアージからモデルへのデータ) に割り当てられます。
この問題に対処するために、SANT と呼ばれる選択的アノテーション フレームワークを提案します。
そのため、有益なデータやハード データは注釈のためにエキスパートに割り当てられ、簡単なデータはモデルによって処理されます。
実験結果は、SANT が他のベースラインを常に上回っており、エキスパート ワーカーとモデル ワーカーの両方にデータを適切に割り当てることで、より高品質のアノテーションを実現できることを示しています。
当社は予算の制約内でデータ アノテーションに関する先駆的な作業を提供し、将来のトリアージ ベースのアノテーション研究のランドマークを確立します。


To obtain high-quality annotations under limited budget, semi-automatic annotation methods are commonly used, where a portion of the data is annotated by experts and a model is then trained to complete the annotations for the remaining data. However, these methods mainly focus on selecting informative data for expert annotations to improve the model predictive ability (i.e., triage-to-human data), while the rest of the data is indiscriminately assigned to model annotation (i.e., triage-to-model data). This may lead to inefficiencies in budget allocation for annotations, as easy data that the model could accurately annotate may be unnecessarily assigned to the expert, and hard data may be misclassified by the model. As a result, the overall annotation quality may be compromised. To address this issue, we propose a selective annotation framework called SANT. It effectively takes advantage of both the triage-to-human and triage-to-model data through the proposed error-aware triage and bi-weighting mechanisms. As such, informative or hard data is assigned to the expert for annotation, while easy data is handled by the model. Experimental results show that SANT consistently outperforms other baselines, leading to higher-quality annotation through its proper allocation of data to both expert and model workers. We provide pioneering work on data annotation within budget constraints, establishing a landmark for future triage-based annotation studies.


著者 Chen Huang,Yang Deng,Wenqiang Lei,Jiancheng Lv,Ido Dagan
発行日 2024-05-20 14:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク