RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models models via Romanization

要約

この研究は、非ローマ字を使用して大規模言語モデル (LLM) を英語以外の言語に拡張するという課題に取り組んでいます。
我々は、ローマ字形式のテキストを LLM のインターフェースとして利用するアプローチを提案し、その頻繁な非公式な使用と英語との共有トークンが言語間の連携を強化すると仮説を立てています。
私たちのアプローチには、英語以外、ローマ字以外の文字言語のローマ字化テキストに対する Llama 2 のような英語 LLM の継続的な事前トレーニングと、その後のローマ字化データに対する命令チューニングが含まれます。
結果は、ローマ字化されたテキストはトークンの生産性を 2 倍から 4 倍低下させるだけでなく、さまざまな NLU、NLG、MT タスクにわたってネイティブ スクリプト表現と同等またはそれを上回るパフォーマンスを示すことを示しています。
さらに、ローマ字化されたテキストに対して計算された埋め込みは、ネイティブ スクリプトからの埋め込みよりも英語の翻訳との密接な一致を示します。
私たちのアプローチは、伝統的に NLP で過小評価されてきた言語で英語 LLM の力を活用するための有望な方向性を示しています。

要約(オリジナル)

This study addresses the challenge of extending Large Language Models (LLMs) to non-English languages using non-Roman scripts. We propose an approach that utilizes the romanized form of text as an interface for LLMs, hypothesizing that its frequent informal use and shared tokens with English enhance cross-lingual alignment. Our approach involves the continual pretraining of an English LLM like Llama 2 on romanized text of non-English, non-Roman script languages, followed by instruction tuning on romanized data. The results indicate that romanized text not only reduces token fertility by 2x-4x but also matches or outperforms native script representation across various NLU, NLG, and MT tasks. Moreover, the embeddings computed on romanized text exhibit closer alignment with their English translations than those from the native script. Our approach presents a promising direction for leveraging the power of English LLMs in languages traditionally underrepresented in NLP.

arxiv情報

著者 Jaavid Aktar Husain,Raj Dabre,Aswanth Kumar,Jay Gala,Thanmay Jayakumar,Ratish Puduppully,Anoop Kunchukuttan
発行日 2024-03-08 18:04:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク