要約
単語の配置は、さまざまな NLP タスクに不可欠です。
したがって、それらの作成に最適なアプローチを選択することが重要です。
ただし、金の評価データが入手しにくいため、選択が難しくなります。
機械翻訳と最小ペアを利用して、ワードアライナーの評価用のシルバーデータを自動的に作成する新しい方法であるSilverAlignを提案します。
シルバー データのパフォーマンスが 9 つの言語ペアのゴールド ベンチマークとよく相関していることを示しており、ゴールド データが利用できない場合に、さまざまなドメインや言語を評価するための有効なリソースとなっています。
これにより、リソースの少ない言語でゴールド データのアライメントが欠落しているという重要なシナリオに対処できます。
要約(オリジナル)
Word alignments are essential for a variety of NLP tasks. Therefore, choosing the best approaches for their creation is crucial. However, the scarce availability of gold evaluation data makes the choice difficult. We propose SilverAlign, a new method to automatically create silver data for the evaluation of word aligners by exploiting machine translation and minimal pairs. We show that performance on our silver data correlates well with gold benchmarks for 9 language pairs, making our approach a valid resource for evaluation of different domains and languages when gold data are not available. This addresses the important scenario of missing gold data alignments for low-resource languages.
arxiv情報
著者 | Abdullatif Köksal,Silvia Severini,Hinrich Schütze |
発行日 | 2023-03-27 22:00:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google