SilverAlign: MT-Based Silver Data Algorithm For Evaluating Word Alignment


単語の配置は、さまざまな NLP タスクに不可欠です。
シルバー データのパフォーマンスが 9 つの言語ペアのゴールド ベンチマークとよく相関していることを示しており、ゴールド データが利用できない場合に、さまざまなドメインや言語を評価するための有効なリソースとなっています。
これにより、リソースの少ない言語でゴールド データのアライメントが欠落しているという重要なシナリオに対処できます。


Word alignments are essential for a variety of NLP tasks. Therefore, choosing the best approaches for their creation is crucial. However, the scarce availability of gold evaluation data makes the choice difficult. We propose SilverAlign, a new method to automatically create silver data for the evaluation of word aligners by exploiting machine translation and minimal pairs. We show that performance on our silver data correlates well with gold benchmarks for 9 language pairs, making our approach a valid resource for evaluation of different domains and languages when gold data are not available. This addresses the important scenario of missing gold data alignments for low-resource languages.


著者 Abdullatif Köksal,Silvia Severini,Hinrich Schütze
発行日 2023-03-27 22:00:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク