H-COAL: Human Correction of AI-Generated Labels for Biomedical Named Entity Recognition


NLP タスク用の機械学習モデルが急速に進歩しているため、AI モデルから忠実度の高いラベルを収集することが現実的に可能になっています。
企業は現在、サービスとしての予測 (PaaS) を通じて顧客が AI を利用できるようにしています。
これには、ヘルスケア向けの PaaS 製品が含まれます。
社内の専門家による高価な注釈チェックを行わずに、これらのラベルをローカル モデルのトレーニングに使用できるかどうかは不明です。
この研究では、AI 生成ラベルの人による修正 (H-COAL) のための新しいフレームワークを提案します。
AI が生成した出力をランク付けすることで、ラベルを選択的に修正し、人的労力を大幅に削減してゴールド スタンダードのパフォーマンス (100% 人間によるラベル付け) に近づけることができます。
ラベルの 5% を修正すると AI と人間のパフォーマンスのギャップを相対的に最大 64% 改善することができ、ラベルの 20% を修正するとパフォーマンスのギャップを相対的に最大 86% 改善することができることを示しています。


With the rapid advancement of machine learning models for NLP tasks, collecting high-fidelity labels from AI models is a realistic possibility. Firms now make AI available to customers via predictions as a service (PaaS). This includes PaaS products for healthcare. It is unclear whether these labels can be used for training a local model without expensive annotation checking by in-house experts. In this work, we propose a new framework for Human Correction of AI-Generated Labels (H-COAL). By ranking AI-generated outputs, one can selectively correct labels and approach gold standard performance (100% human labeling) with significantly less human effort. We show that correcting 5% of labels can close the AI-human performance gap by up to 64% relative improvement, and correcting 20% of labels can close the performance gap by up to 86% relative improvement.


著者 Xiaojing Duan,John P. Lalor
発行日 2023-11-20 18:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク