要約
多言語の大規模な言語モデル(LLM)は、特に英語などの高リソース言語で、さまざまな言語で重要な効果を実証しています。
ただし、他の低リソース言語、特にインド言語にわたる事実上の正確さの点でのパフォーマンスは、調査の領域のままです。
この研究では、LLMS-GPT-4O、GEMMA-2-9B、GEMMA-2-2B、およびLLAMA-3.1-8Bの事実上の正確さを評価します – 英語と19のインド語の言語での質問回答ペアを含むIndicQuestデータセットを使用して、英語とINDIC言語のパフォーマンスを比較します。
英語とそれぞれのインド翻訳で同じ質問をすることにより、インド言語の地域の文脈の質問に対してモデルがより信頼できるか、英語で動作するときにモデルがより信頼できるかどうかを分析します。
私たちの調査結果は、LLMがインドのコンテキストに根ざした質問でさえ、LLMが英語でより良いパフォーマンスを発揮することを明らかにしています。
特に、低リソースインド言語で生成された応答の幻覚の傾向が高いことを観察し、現在のLLMの多言語理解能力の課題を強調しています。
要約(オリジナル)
Multilingual Large Language Models (LLMs) have demonstrated significant effectiveness across various languages, particularly in high-resource languages such as English. However, their performance in terms of factual accuracy across other low-resource languages, especially Indic languages, remains an area of investigation. In this study, we assess the factual accuracy of LLMs – GPT-4o, Gemma-2-9B, Gemma-2-2B, and Llama-3.1-8B – by comparing their performance in English and Indic languages using the IndicQuest dataset, which contains question-answer pairs in English and 19 Indic languages. By asking the same questions in English and their respective Indic translations, we analyze whether the models are more reliable for regional context questions in Indic languages or when operating in English. Our findings reveal that LLMs often perform better in English, even for questions rooted in Indic contexts. Notably, we observe a higher tendency for hallucination in responses generated in low-resource Indic languages, highlighting challenges in the multilingual understanding capabilities of current LLMs.
arxiv情報
著者 | Pritika Rohera,Chaitrali Ginimav,Gayatri Sawant,Raviraj Joshi |
発行日 | 2025-04-28 17:48:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google