xSIM++: An Improved Proxy to Bitext Mining Performance for Low-Resource Languages

要約

多言語埋め込み空間における類似性に基づいてバイテキストマイニングを評価するための新しいプロキシスコア、xSIM++ を導入します。
xSIM と比較して、この改良されたプロキシは、ルールベースのアプローチを活用して、大規模なマイニング中に遭遇するシナリオをより厳密に反映した、区別が難しい合成例を使用して評価セット内の英語の文章を拡張します。
私たちは、一連の低リソース言語に対して多数のバイテキストマイニング実験を実行することでこのプロキシを検証し、その後、マイニングされたデータで NMT システムをトレーニングします。
xSIM と比較して、xSIM++ はマイニングされたバイテキストでトレーニングされた翻訳システムの下流 BLEU スコアとの相関性が高く、高価なバイテキストマイニングパイプラインを実行する必要なく、バイテキストマイニングパフォーマンスの信頼できるプロキシを提供することを示します。
xSIM++ は、さまざまなエラータイプのパフォーマンスも報告し、モデル開発のためのよりきめ細かいフィードバックを提供します。

要約(オリジナル)

We introduce a new proxy score for evaluating bitext mining based on similarity in a multilingual embedding space: xSIM++. In comparison to xSIM, this improved proxy leverages rule-based approaches to extend English sentences in any evaluation set with synthetic, hard-to-distinguish examples which more closely mirror the scenarios we encounter during large-scale mining. We validate this proxy by running a significant number of bitext mining experiments for a set of low-resource languages, and subsequently train NMT systems on the mined data. In comparison to xSIM, we show that xSIM++ is better correlated with the downstream BLEU scores of translation systems trained on mined bitexts, providing a reliable proxy of bitext mining performance without needing to run expensive bitext mining pipelines. xSIM++ also reports performance for different error types, offering more fine-grained feedback for model development.

arxiv情報

著者	Mingda Chen,Kevin Heffernan,Onur Çelebi,Alex Mourachko,Holger Schwenk
発行日	2023-06-22 14:20:15+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

xSIM++: An Improved Proxy to Bitext Mining Performance for Low-Resource Languages

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー