要約
大規模言語モデル (LLM) は、英語での文脈に基づいた質問応答 (QA) など、目に見えないタスクにおいて優れたゼロショットおよび少数ショットの機能を実証しました。
ただし、英語以外の言語でのコンテキストベースの QA に対する LLM の機能の評価は、英語以外の言語でのベンチマークが不足しているため制限されています。
このギャップに対処するために、2 つの言語族の 11 の主要なインド言語を対象とした、公開されている最大のコンテキストに基づいた質問応答データセットである Indic-QA を導入します。
このデータセットは、抽出的および抽象的な質問応答タスクの両方で構成されており、既存のデータセットに加えて、インドの言語に翻訳された英語の QA データセットも含まれています。
さらに、Gemini モデルを使用して合成データセットを生成し、特定のパッセージに対して質問と回答のペアを作成し、品質保証のために手動で検証します。
私たちはさまざまな多言語大規模言語モデルとその命令を微調整したバリアントをベンチマークで評価し、特に低リソース言語のパフォーマンスが標準以下であることを観察しました。
このデータセットのリリースにより、低リソース言語に対する LLM の質問応答能力に関するさらなる研究が促進されることを期待しています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable zero-shot and few-shot capabilities in unseen tasks, including context-grounded question answering (QA) in English. However, the evaluation of LLMs’ capabilities in non-English languages for context-based QA is limited by the scarcity of benchmarks in non-English languages. To address this gap, we introduce Indic-QA, the largest publicly available context-grounded question-answering dataset for 11 major Indian languages from two language families. The dataset comprises both extractive and abstractive question-answering tasks and includes existing datasets as well as English QA datasets translated into Indian languages. Additionally, we generate a synthetic dataset using the Gemini model to create question-answer pairs given a passage, which is then manually verified for quality assurance. We evaluate various multilingual Large Language Models and their instruction-fine-tuned variants on the benchmark and observe that their performance is subpar, particularly for low-resource languages. We hope that the release of this dataset will stimulate further research on the question-answering abilities of LLMs for low-resource languages.
arxiv情報
著者 | Abhishek Kumar Singh,Rudra Murthy,Vishwajeet kumar,Jaydeep Sen,Ganesh Ramakrishnan |
発行日 | 2024-07-18 13:57:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google