要約
この研究は、大規模言語モデル (LLM) を英語以外の言語、特に非ラテン文字を使用する言語に拡張するという課題に取り組んでいます。
私たちは、ローマ字形式のテキストを LLM のインターフェイスとして利用する革新的なアプローチを提案し、その頻繁な非公式な使用と英語との共有トークンが言語を越えた連携を強化すると仮説を立てています。
ヒンディー語に焦点を当て、ヒンディー語から英語への翻訳と感情分析のタスクを通じて、ローマ字化されたテキストはネイティブ テキストと比較して生殖力が低いため推論効率が大幅に向上するだけでなく、限られた事前トレーニングでも競争力のあるパフォーマンスを達成できることを実証します。
さらに、ローマ字テキストとネイティブ テキストを組み合わせた新しいマルチスクリプト プロンプト アプローチは、タスクのパフォーマンスをさらに向上させることが期待できます。
これらの発見は、ローマ字化が LLM アプリケーションの言語ギャップを埋める可能性を示唆しており、今後の研究では、このアプローチをより多くの言語とタスクに拡張することを目的としています。
要約(オリジナル)
This study addresses the challenge of extending Large Language Models (LLMs) to non-English languages, specifically those using non-Latin scripts. We propose an innovative approach that utilizes the romanized form of text as an interface for LLMs, hypothesizing that its frequent informal use and shared tokens with English enhance cross-lingual alignment. Focusing on Hindi, we demonstrate through Hindi-to-English translation and sentiment analysis tasks that romanized text not only significantly improves inference efficiency due to its lower fertility compared to native text but also achieves competitive performance with limited pre-training. Additionally, our novel multi-script prompting approach, which combines romanized and native texts, shows promise in further enhancing task performance. These findings suggest the potential of romanization in bridging the language gap for LLM applications, with future work aimed at expanding this approach to more languages and tasks.
arxiv情報
著者 | Jaavid Aktar Husain,Raj Dabre,Aswanth Kumar,Ratish Puduppully,Anoop Kunchukuttan |
発行日 | 2024-01-25 16:11:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google