AI-Assisted Human Evaluation of Machine Translation

要約

毎年、研究チームは機械翻訳システム(WMT、Inter Alia)の品質を評価するために多額のお金を費やしています。
これは、多くの専門家の労働を必要とするため、高価です。
最近採用された注釈プロトコル、エラースパンアノテーション(ESA)では、アノテーターが翻訳の誤った部分をマークし、最終スコアを割り当てます。
アノテーターの時間の多くは、可能なエラーのために翻訳のスキャンに費やされます。
私たちの仕事では、リコール指向の自動品質推定でエラーアノテーションを事前に埋めることにより、アノテーターを支援します。
このAIの支援により、同じ品質レベルでアノテーションを取得しながら、スパンごとのアノテーション時間を半分に削減します(71S/エラースパン$ \ rightArrow $ 31S/エラースパン)。
ESA $^\ mathrm {ai} $プロトコルの最大の利点は、最終スコアを割り当てる前のアノテーター(事前に満たされたエラースパン)の正確なプライミングです。
これにより、潜在的な自動化バイアスが軽減され、これが低いことを確認します。
私たちの実験では、AIが正しいと思われる例をフィルタリングすると、注釈予算をさらに25%削減できることがわかります。

要約(オリジナル)

Annually, research teams spend large amounts of money to evaluate the quality of machine translation systems (WMT, inter alia). This is expensive because it requires a lot of expert human labor. In the recently adopted annotation protocol, Error Span Annotation (ESA), annotators mark erroneous parts of the translation and then assign a final score. A lot of the annotator time is spent on scanning the translation for possible errors. In our work, we help the annotators by pre-filling the error annotations with recall-oriented automatic quality estimation. With this AI assistance, we obtain annotations at the same quality level while cutting down the time per span annotation by half (71s/error span $\rightarrow$ 31s/error span). The biggest advantage of the ESA$^\mathrm{AI}$ protocol is an accurate priming of annotators (pre-filled error spans) before they assign the final score. This alleviates a potential automation bias, which we confirm to be low. In our experiments, we find that the annotation budget can be further reduced by almost 25% with filtering of examples that the AI deems to be likely to be correct.

arxiv情報

著者 Vilém Zouhar,Tom Kocmi,Mrinmaya Sachan
発行日 2025-01-29 14:21:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク