Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM’s Translation Capability

要約

大規模な多言語言語モデルは、一般的なニューラル翻訳システムに提供される意図的に含まれた翻訳例を見たことがなかったにもかかわらず、驚くほど優れたゼロショットまたは数ショットの機械翻訳機能を示します。
私たちは、Pathways Language Model (PaLM) をケーススタディとして、大規模な言語モデルの翻訳機能を説明する際の、偶発的バイリンガリズム、つまり翻訳例を含むバイリンガル信号の意図しない消費の役割を調査します。
偶発的なバイリンガルを大規模に測定および理解するための混合方法アプローチを導入します。
PaLM が少なくとも 44 言語にわたる 3,000 万以上の翻訳ペアにさらされていることを示しています。
さらに、付随的なバイリンガル コンテンツの量は、英語以外の言語の単一言語内コンテンツの量と高い相関関係があります。
我々は、付随的なバイリンガルコンテンツをゼロショットプロンプトに関連付け、それを新しいプロンプトをマイニングしてPaLMの英語以外のゼロショット翻訳の品質を向上させるために使用できることを示します。
最後に、一連の小規模アブレーションにおいて、その存在が翻訳能力に大きな影響を与えるが、この影響はモデルの規模に応じて減少することを示します。

要約(オリジナル)

Large, multilingual language models exhibit surprisingly good zero- or few-shot machine translation capabilities, despite having never seen the intentionally-included translation examples provided to typical neural translation systems. We investigate the role of incidental bilingualism — the unintentional consumption of bilingual signals, including translation examples — in explaining the translation capabilities of large language models, taking the Pathways Language Model (PaLM) as a case study. We introduce a mixed-method approach to measure and understand incidental bilingualism at scale. We show that PaLM is exposed to over 30 million translation pairs across at least 44 languages. Furthermore, the amount of incidental bilingual content is highly correlated with the amount of monolingual in-language content for non-English languages. We relate incidental bilingual content to zero-shot prompts and show that it can be used to mine new prompts to improve PaLM’s out-of-English zero-shot translation quality. Finally, in a series of small-scale ablations, we show that its presence has a substantial impact on translation capabilities, although this impact diminishes with model scale.

arxiv情報

著者 Eleftheria Briakou,Colin Cherry,George Foster
発行日 2023-05-17 14:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク