NativQA Framework: Enabling LLMs with Native, Local, and Everyday Knowledge

要約

大規模な言語モデル(LLMS)の急速な進歩は、文化的バイアス、公平性、および多様な言語的および過小評価されている地域の文脈におけるそれらの適用性に関する懸念を提起しました。
LLMSの機能を強化およびベンチマークするには、多言語、ローカル、および文化的コンテキストに焦点を当てた大規模なリソースを開発する必要があります。
この研究では、ネイティブ言語で大規模、文化的、地域的に整列したQAデータセットをシームレスに構築できるフレームワークであるNativqaを提案します。
このフレームワークは、ユーザー定義のシードクエリを使用し、検索エンジンを活用して、場所固有の日常情報を収集します。
非常に低リソースから高リソースの言語に至るまで、24か国の39の場所と7つの言語で評価されており、その結果、300K以上の質問回答(QA)ペアがありました。
開発されたリソースは、LLMベンチマークとさらに微調整に使用できます。
このフレームワークは、コミュニティ(https://gitlab.com/nativqa/nativqa-framework)で公開されています。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has raised concerns about cultural bias, fairness, and their applicability in diverse linguistic and underrepresented regional contexts. To enhance and benchmark the capabilities of LLMs, there is a need to develop large-scale resources focused on multilingual, local, and cultural contexts. In this study, we propose a framework, NativQA, that can seamlessly construct large-scale, culturally and regionally aligned QA datasets in native languages. The framework utilizes user-defined seed queries and leverages search engines to collect location-specific, everyday information. It has been evaluated across 39 locations in 24 countries and in 7 languages, ranging from extremely low-resource to high-resource languages, which resulted over 300K Question Answer (QA) pairs. The developed resources can be used for LLM benchmarking and further fine-tuning. The framework has been made publicly available for the community (https://gitlab.com/nativqa/nativqa-framework).

arxiv情報

著者 Firoj Alam,Md Arid Hasan,Sahinur Rahman Laskar,Mucahid Kutlu,Shammur Absar Chowdhury
発行日 2025-04-08 13:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, F.2.2 パーマリンク