要約
多言語翻訳の研究では、言語族の理解と活用が最も重要です。
それにも関わらず、祖先ファミリーのみに基づいて言語をクラスタリングすると、モデルのトレーニング段階で使用されるデータセットのばらつきにより、次善の結果が得られる可能性があります。
この課題を軽減するために、多言語翻訳モデルの特性に基づいて、フィッシャー情報マトリックス (FIM) を活用して言語ファミリーをクラスター化する革新的な方法を導入します。
モデルパラメータに同様の影響を与える言語ペアは、かなりの程度の言語的一致を示すため、一貫してグループ化されるべきであると仮説を立てます。
この概念により、擬似言語ファミリーを定義することができました。
これらの疑似言語ファミリーの開始と適用に関する詳細な議論を提供します。
経験的評価により、これらの疑似言語ファミリーを採用すると、多言語翻訳モデルを不慣れな言語ペアに適応させる際に、従来の言語ファミリーよりもパフォーマンスが向上することが明らかになりました。
提案された方法論は、言語類似性の測定を必要とするシナリオにも拡張できます。
ソース コードと関連スクリプトには、https://github.com/ecoli-hit/PseudoFamily からアクセスできます。
要約(オリジナル)
In multilingual translation research, the comprehension and utilization of language families are of paramount importance. Nevertheless, clustering languages based solely on their ancestral families can yield suboptimal results due to variations in the datasets employed during the model’s training phase. To mitigate this challenge, we introduce an innovative method that leverages the fisher information matrix (FIM) to cluster language families, anchored on the multilingual translation model’s characteristics. We hypothesize that language pairs with similar effects on model parameters exhibit a considerable degree of linguistic congruence and should thus be grouped cohesively. This concept has led us to define pseudo language families. We provide an in-depth discussion regarding the inception and application of these pseudo language families. Empirical evaluations reveal that employing these pseudo language families enhances performance over conventional language families in adapting a multilingual translation model to unfamiliar language pairs. The proposed methodology may also be extended to scenarios requiring language similarity measurements. The source code and associated scripts can be accessed at https://github.com/ecoli-hit/PseudoFamily.
arxiv情報
著者 | Xinyu Ma,Xuebo Liu,Min Zhang |
発行日 | 2023-12-05 15:03:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google