Understanding Cross-Lingual Alignment — A Survey

要約

多言語言語モデルにおける言語間の表現の意味のある類似性である、言語間アラインメントは、近年活発な研究分野となっています。
私たちは、言語間のアライメントを改善するための技術の文献を調査し、方法の分類を提供し、この分野全体からの洞察を要約します。
私たちは、言語を越えた調整とその限界についてのさまざまな理解を提示します。
多数の調査論文からの結果の定性的な概要を提供します。
最後に、これらの洞察が、このトピックが盛んに研究されているエンコーダ モデルだけでなく、エンコーダ – デコーダ、さらにはデコーダのみのモデルにもどのように適用できるかについて議論し、言語中立性と言語間の効果的なトレードオフについて議論します。
言語固有の情報が重要です。

要約(オリジナル)

Cross-lingual alignment, the meaningful similarity of representations across languages in multilingual language models, has been an active field of research in recent years. We survey the literature of techniques to improve cross-lingual alignment, providing a taxonomy of methods and summarising insights from throughout the field. We present different understandings of cross-lingual alignment and their limitations. We provide a qualitative summary of results from a large number of surveyed papers. Finally, we discuss how these insights may be applied not only to encoder models, where this topic has been heavily studied, but also to encoder-decoder or even decoder-only models, and argue that an effective trade-off between language-neutral and language-specific information is key.

arxiv情報

著者 Katharina Hämmerl,Jindřich Libovický,Alexander Fraser
発行日 2024-06-11 17:33:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク