Multilingual Question Answering in Low-Resource Settings: A Dzongkha-English Benchmark for Foundation Models

要約

この作業では、ブータンの中学生と高校生向けの並行したDzongkhaのデータセットであるDzenを提供します。
私たちのコレクションの5K以上の質問には、さまざまな科学的トピックに及び、事実、応用、および推論に基づく質問が含まれます。
並列データセットを使用して、多くの大規模な言語モデル(LLM)をテストし、英語とDzongkhaのモデル間に大きなパフォーマンスの違いを見つけます。
また、さまざまなプロンプト戦略を検討し、推論の質問に適しているが、事実の質問ではあまりうまくいかないことを発見します。
また、英語の翻訳を追加すると、ゾンカの質問応答の精度が向上することがわかります。
私たちの結果は、Dzongkha、より一般的には低資源の言語でのLLMパフォーマンスを改善するためのさらなる研究のためのエキサイティングな道を指摘しています。
https://github.com/kraritt/llm_dzongkha_evaluationでデータセットをリリースします。

要約(オリジナル)

In this work, we provide DZEN, a dataset of parallel Dzongkha and English test questions for Bhutanese middle and high school students. The over 5K questions in our collection span a variety of scientific topics and include factual, application, and reasoning-based questions. We use our parallel dataset to test a number of Large Language Models (LLMs) and find a significant performance difference between the models in English and Dzongkha. We also look at different prompting strategies and discover that Chain-of-Thought (CoT) prompting works well for reasoning questions but less well for factual ones. We also find that adding English translations enhances the precision of Dzongkha question responses. Our results point to exciting avenues for further study to improve LLM performance in Dzongkha and, more generally, in low-resource languages. We release the dataset at: https://github.com/kraritt/llm_dzongkha_evaluation.

arxiv情報

著者 Md. Tanzib Hosain,Rajan Das Gupta,Md. Kishor Morol
発行日 2025-05-29 17:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク