要約
タイトル「「インド言語における多言語機械翻訳における語彙共有の調査」
要約
– 多言語言語モデルは、多様な言語とタスクにわたって印象的なクロスリンガル転送能力を示しています。
– これらのモデルのクロスリンガル能力を向上させるための戦略には、転写とサブワードではなく文字によるより細かいセグメンテーションが含まれます。
– この研究では、ヒンディー語、グジャラート語、ネパール語から英語への多言語機械翻訳における語彙共有を調査しました。
– データサンプリングと語彙サイズの間に存在する翻訳性能のトレードオフを探究し、転写がクロススクリプト汎用化を促進するのに役立つかどうかを調査しました。
– また、異なる設定が見ない言語(マラーティー語とベンガル語)にどのように適用されるかを検証しました。
– 結果として、転写は明確な改善をもたらさず、比較的低資源言語に対して、元のスクリプトでトレーニングされた多言語MTモデルが既にクロススクリプトの違いに堅牢であることが示されました。
– 多言語機械翻訳の語彙共有に関する研究
– 多言語言語モデルは、さまざまな言語とタスクにわたって印象的なクロスリンガル転送能力を示す
– 転写とサブワードの代わりに、文字による細かいセグメンテーションが有用である
– ヒンディー語、グジャラート語、ネパール語から英語への語彙共有を調査する
– データサンプリングと語彙サイズのトレードオフを探究する
– 転写がクロススクリプト汎用化を促進するのに役立つか検証する
– 転写には明確な改善がないことが示された
– 比較的低資源言語に対しては、元のスクリプトでトレーニングされたMTモデルが既に堅牢であることが示された
要約(オリジナル)
Multilingual language models have shown impressive cross-lingual transfer ability across a diverse set of languages and tasks. To improve the cross-lingual ability of these models, some strategies include transliteration and finer-grained segmentation into characters as opposed to subwords. In this work, we investigate lexical sharing in multilingual machine translation (MT) from Hindi, Gujarati, Nepali into English. We explore the trade-offs that exist in translation performance between data sampling and vocabulary size, and we explore whether transliteration is useful in encouraging cross-script generalisation. We also verify how the different settings generalise to unseen languages (Marathi and Bengali). We find that transliteration does not give pronounced improvements and our analysis suggests that our multilingual MT models trained on original scripts seem to already be robust to cross-script differences even for relatively low-resource languages
arxiv情報
著者 | Sonal Sannigrahi,Rachel Bawden |
発行日 | 2023-05-04 23:35:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI