Pixel Representations for Multilingual Translation and Data-efficient Cross-lingual Transfer

要約

ピクセル表現を使用して多言語機械翻訳モデルを効果的にトレーニングする方法を紹介し、デモンストレーションします。
さまざまな言語とスクリプトをカバーする 2 つの異なるデータ設定を試し、サブワード埋め込みと競合するパフォーマンスを示しました。
私たちは、ピクセル表現のさまざまなプロパティを分析して、ピクセル表現がどこに潜在的な利点をもたらすか、またさまざまなスクリプトやデータ表現の影響をより深く理解します。
これらのプロパティにより、言語を越えた目に見えない文字へのシームレスな転送が可能になるだけでなく、語彙拡張などの代替手段よりもピクセル表現のデータ効率が高くなることがわかりました。
私たちは、この研究がすべての言語と文字のより拡張可能な多言語モデルに貢献することを願っています。

要約(オリジナル)

We introduce and demonstrate how to effectively train multilingual machine translation models with pixel representations. We experiment with two different data settings with a variety of language and script coverage, and show performance competitive with subword embeddings. We analyze various properties of pixel representations to better understand where they provide potential benefits and the impact of different scripts and data representations. We observe that these properties not only enable seamless cross-lingual transfer to unseen scripts, but make pixel representations more data-efficient than alternatives such as vocabulary expansion. We hope this work contributes to more extensible multilingual models for all languages and scripts.

arxiv情報

著者 Elizabeth Salesky,Neha Verma,Philipp Koehn,Matt Post
発行日 2023-05-23 17:26:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク