要約
最近の大規模言語モデル (LLM) は、長いコンテキストの処理において優れた機能を実証しており、合成検索タスクでほぼ完璧な再現を示すものもあります。
ただし、これらの評価は主に英語のテキストに焦点を当てており、長い文脈内の単一の対象文が含まれています。
私たちの研究では、LLM のパフォーマンスが複数の隠れたターゲット文を含む多言語設定にどのように一般化するかを調査しています。
英語、ベトナム語、インドネシア語、スワヒリ語、ソマリ語の 5 つの言語にわたる検索および推論タスクに関して、いくつかの長いコンテキスト LLM を包括的に評価します。
これらの言語はラテン文字を共有していますが、異なる言語ファミリーとリソース レベルに属しています。
私たちの分析により、言語間のパフォーマンスに大きな差があることが明らかになりました。
Gemini-1.5 や GPT-4o などの最もパフォーマンスの高いモデルは、単一のターゲット文で英語で約 96%、ソマリ語で約 36% の精度を達成します。
ただし、3 つのターゲット文を処理すると、この精度は英語で 40%、ソマリ語で 0% に低下します。
私たちの調査結果は、長いコンテキストの LLM が、より長いコンテキスト、対象となる文の数の増加、またはリソース レベルの低い言語を処理する際に直面する課題を浮き彫りにしています。
要約(オリジナル)
Recent large language models (LLMs) demonstrate impressive capabilities in handling long contexts, some exhibiting near-perfect recall on synthetic retrieval tasks. However, these evaluations have mainly focused on English text and involved a single target sentence within lengthy contexts. Our work investigates how LLM performance generalizes to multilingual settings with multiple hidden target sentences. We comprehensively evaluate several long-context LLMs on retrieval and reasoning tasks across five languages: English, Vietnamese, Indonesian, Swahili, and Somali. These languages share the Latin script but belong to distinct language families and resource levels. Our analysis reveals a significant performance gap between languages. The best-performing models such as Gemini-1.5 and GPT-4o, achieve around 96% accuracy in English to around 36% in Somali with a single target sentence. However, this accuracy drops to 40% in English and 0% in Somali when dealing with three target sentences. Our findings highlight the challenges long-context LLMs face when processing longer contexts, an increase in the number of target sentences, or languages of lower resource levels.
arxiv情報
著者 | Ameeta Agrawal,Andy Dang,Sina Bagheri Nezhad,Rhitabrat Pokharel,Russell Scheinberg |
発行日 | 2024-09-26 16:15:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google