要約
手動でアノテーションが付けられたデータセットは、自然言語処理モデルのトレーニングと評価に不可欠です。
しかし、最近の研究により、広く使用されているベンチマーク データセットにも相当数の誤ったアノテーションが含まれていることが判明しました。
この問題は、人間による再アノテーションのためにそのようなエラーにフラグを付けることができるアノテーション エラー検出 (AED) モデルで解決されました。
ただし、これらの AED 手法の多くは、人間のアノテーターがアノテーションが間違っているかどうかを判断する最終キュレーション ステップを前提としていますが、人間参加型コンポーネントのない静的モデルとして開発されています。
この研究では、予測ループ内でエラー修正について人間に繰り返し質問することで、より正確にエラーを検出できる AED 手法である ActiveAED を提案します。
私たちは、5 つの異なるタスクにわたる 8 つのデータセットで ActiveAED を評価し、そのうち 7 つのデータセットで最新技術よりも改善が見られ、平均精度が最大 6 パーセント向上したことがわかりました。
要約(オリジナル)
Manually annotated datasets are crucial for training and evaluating Natural Language Processing models. However, recent work has discovered that even widely-used benchmark datasets contain a substantial number of erroneous annotations. This problem has been addressed with Annotation Error Detection (AED) models, which can flag such errors for human re-annotation. However, even though many of these AED methods assume a final curation step in which a human annotator decides whether the annotation is erroneous, they have been developed as static models without any human-in-the-loop component. In this work, we propose ActiveAED, an AED method that can detect errors more accurately by repeatedly querying a human for error corrections in its prediction loop. We evaluate ActiveAED on eight datasets spanning five different tasks and find that it leads to improvements over the state of the art on seven of them, with gains of up to six percentage points in average precision.
arxiv情報
著者 | Leon Weber,Barbara Plank |
発行日 | 2023-05-31 17:18:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google