要約
大規模言語モデル (LLM) は、多言語モデルにインド言語を組み込む点で大きな進歩を遂げました。
ただし、これらの言語が英語などの世界的に支配的な言語と同等のパフォーマンスを発揮するかどうかを定量的に評価することが重要です。
現在、さまざまなインド言語における LLM の地域知識を評価するために特別に設計されたベンチマーク データセットが不足しています。
このペーパーでは、多言語 LLM がさまざまなインド言語にわたる地域の知識をどの程度うまく取り込んでいるかを評価するために設計された、ゴールドスタンダードの質問応答ベンチマーク データセットである L3Cube-IndicQuest を紹介します。
データセットには、英語と 19 のインド諸言語の 200 の質問と回答のペアが含まれており、インド地域に特有の 5 つのドメインをカバーしています。
私たちは、このデータセットがベンチマークとして機能し、インドの文脈に関連する知識を理解し表現する際の LLM のパフォーマンスを評価するための真実を提供することを目指しています。
IndicQuest は、参照ベースの評価と審査員としての LLM 評価の両方に使用できます。
データセットは https://github.com/l3cube-pune/indic-nlp で公開されています。
要約(オリジナル)
Large Language Models (LLMs) have made significant progress in incorporating Indic languages within multilingual models. However, it is crucial to quantitatively assess whether these languages perform comparably to globally dominant ones, such as English. Currently, there is a lack of benchmark datasets specifically designed to evaluate the regional knowledge of LLMs in various Indic languages. In this paper, we present the L3Cube-IndicQuest, a gold-standard question-answering benchmark dataset designed to evaluate how well multilingual LLMs capture regional knowledge across various Indic languages. The dataset contains 200 question-answer pairs, each for English and 19 Indic languages, covering five domains specific to the Indic region. We aim for this dataset to serve as a benchmark, providing ground truth for evaluating the performance of LLMs in understanding and representing knowledge relevant to the Indian context. The IndicQuest can be used for both reference-based evaluation and LLM-as-a-judge evaluation. The dataset is shared publicly at https://github.com/l3cube-pune/indic-nlp .
arxiv情報
著者 | Pritika Rohera,Chaitrali Ginimav,Akanksha Salunke,Gayatri Sawant,Raviraj Joshi |
発行日 | 2024-09-13 10:48:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google