SilverAlign: MT-Based Silver Data Algorithm For Evaluating Word Alignment

要約

単語の配置は、さまざまな NLP タスクに不可欠です。
したがって、それらの作成に最適なアプローチを選択することが重要です。
ただし、金の評価データが入手しにくいため、選択が難しくなります。
機械翻訳と最小ペアを利用して、ワードアライナーの評価用のシルバーデータを自動的に作成する新しい方法であるSilverAlignを提案します。
シルバーデータのパフォーマンスが 9 つの言語ペアのゴールドベンチマークとよく相関していることを示しており、ゴールドデータが利用できない場合に、さまざまなドメインや言語を評価するための有効なリソースとなっています。
これにより、リソースの少ない言語でゴールドデータのアライメントが欠落しているという重要なシナリオに対処できます。

要約(オリジナル)

Word alignments are essential for a variety of NLP tasks. Therefore, choosing the best approaches for their creation is crucial. However, the scarce availability of gold evaluation data makes the choice difficult. We propose SilverAlign, a new method to automatically create silver data for the evaluation of word aligners by exploiting machine translation and minimal pairs. We show that performance on our silver data correlates well with gold benchmarks for 9 language pairs, making our approach a valid resource for evaluation of different domains and languages when gold data are not available. This addresses the important scenario of missing gold data alignments for low-resource languages.

arxiv情報

著者	Abdullatif Köksal,Silvia Severini,Hinrich Schütze
発行日	2023-03-27 22:00:44+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

SilverAlign: MT-Based Silver Data Algorithm For Evaluating Word Alignment

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー