Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts

要約

デコーダー専用の大規模言語モデル (LLM) は、少数ショットまたはゼロショットのインコンテキスト学習 (ICL) を通じて、さまざまなタスクにわたって高リソース言語に優れています。
ただし、そのパフォーマンスは、リソースの少ない言語、特に非ラテン文字で書かれた言語にはうまく伝わらないことがよくあります。
エンコーダのみのモデルで音訳を活用する最近の研究に触発され、非ラテン文字で書かれた低リソース言語に対する LLM のパフォーマンスの向上にも音訳が効果的であるかどうかを調査します。
この目的を達成するために、ターゲット言語のテキストが (1) 元の文字、(2) ラテン文字、または (3) 両方で表現される 3 つのプロンプト テンプレートを提案します。
これらの方法を、テキスト分類や逐次ラベル付けなどのさまざまなタスクで、さまざまなサイズのいくつかの代表的な LLM に適用します。
私たちの調査結果は、音訳の有効性がタスクの種類とモデルのサイズによって異なることを示しています。
たとえば、すべてのモデルは、順次ラベル付けのための音訳の恩恵を受けます (最大 25% の増加)。

要約(オリジナル)

Decoder-only large language models (LLMs) excel in high-resource languages across various tasks through few-shot or even zero-shot in-context learning (ICL). However, their performance often does not transfer well to low-resource languages, especially those written in non-Latin scripts. Inspired by recent work that leverages transliteration in encoder-only models, we investigate whether transliteration is also effective in improving LLMs’ performance for low-resource languages written in non-Latin scripts. To this end, we propose three prompt templates, where the target-language text is represented in (1) its original script, (2) Latin script, or (3) both. We apply these methods to several representative LLMs of different sizes on various tasks including text classification and sequential labeling. Our findings show that the effectiveness of transliteration varies by task type and model size. For instance, all models benefit from transliterations for sequential labeling (with increases of up to 25%).

arxiv情報

著者 Chunlan Ma,Yihong Liu,Haotian Ye,Hinrich Schütze
発行日 2024-07-02 14:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク