Chasing COMET: Leveraging Minimum Bayes Risk Decoding for Self-Improving Machine Translation

要約

この論文では、機械翻訳 (MT)、特にドメイン適応と低リソース言語の自己改善のための最小ベイズ リスク (MBR) デコーディングについて検討します。
MBR デコードされた前方変換でモデルを微調整することで、自己改善プロセスを実装します。
MBR ユーティリティ メトリックとして COMET を採用することで、人間の好みに合わせて翻訳を再ランキングすることを目指しています。
この論文では、このアプローチの反復適用と、言語固有の MBR ユーティリティ メトリクスの潜在的なニーズについて検討します。
結果は、ドメイン適応モデルへの適用の成功や低リソース設定への一般化など、調査したすべての言語ペアで翻訳品質が大幅に向上していることを示しています。
これは、さまざまなシナリオで効率的な MT 自己改善のための COMET ガイド型 MBR の可能性を強調しています。

要約(オリジナル)

This paper explores Minimum Bayes Risk (MBR) decoding for self-improvement in machine translation (MT), particularly for domain adaptation and low-resource languages. We implement the self-improvement process by fine-tuning the model on its MBR-decoded forward translations. By employing COMET as the MBR utility metric, we aim to achieve the reranking of translations that better aligns with human preferences. The paper explores the iterative application of this approach and the potential need for language-specific MBR utility metrics. The results demonstrate significant enhancements in translation quality for all examined language pairs, including successful application to domain-adapted models and generalisation to low-resource settings. This highlights the potential of COMET-guided MBR for efficient MT self-improvement in various scenarios.

arxiv情報

著者 Kamil Guttmann,Mikołaj Pokrywka,Adrian Charkiewicz,Artur Nowakowski
発行日 2024-05-20 10:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク