要約
ピクセル表現を使用して多言語機械翻訳モデルを効果的にトレーニングする方法を紹介し、デモンストレーションします。
さまざまな言語とスクリプトをカバーする 2 つの異なるデータ設定を試し、サブワード埋め込みと比較してパフォーマンスが向上することを実証しました。
スクリプト内およびスクリプト間でのパラメーター共有など、ピクセル表現のさまざまなプロパティを調査して、それらがポジティブな転送につながる場所をより深く理解します。
これらのプロパティにより、言語を越えた目に見えない文字へのシームレスな転送が可能になるだけでなく、語彙拡張などの代替手段よりもピクセル表現のデータ効率が高くなることがわかりました。
私たちは、この研究がすべての言語と文字のより拡張可能な多言語モデルに貢献することを願っています。
要約(オリジナル)
We introduce and demonstrate how to effectively train multilingual machine translation models with pixel representations. We experiment with two different data settings with a variety of language and script coverage, demonstrating improved performance compared to subword embeddings. We explore various properties of pixel representations such as parameter sharing within and across scripts to better understand where they lead to positive transfer. We observe that these properties not only enable seamless cross-lingual transfer to unseen scripts, but make pixel representations more data-efficient than alternatives such as vocabulary expansion. We hope this work contributes to more extensible multilingual models for all languages and scripts.
arxiv情報
著者 | Elizabeth Salesky,Neha Verma,Philipp Koehn,Matt Post |
発行日 | 2023-10-24 13:36:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google