AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs


私たちは、機械翻訳 (MT) と人間によるポストエディットを組み合わせて作成された、現代標準アラビア語 (MSA) と並んで方言の 7 つの合成データセットを導入することで、このギャップに対処します。
私たちは、特にリソースの少ないアラビア語方言に焦点を当てて、方言の理解と生成に関して LLM を評価します。
さらに、湾岸、エジプト、レバント地域全体の文化的意識を評価するために設計された、史上初のきめ細かいベンチマークを導入し、LLM 評価に新しい側面を提供します。
私たちの調査結果は、Jais や AceGPT などのアラビア語固有のモデルが方言タスクでは多言語モデルよりも優れているものの、方言の識別、生成、翻訳には大きな課題が残っていることを示しています。
この研究は、文化的なベンチマークである約 45,000 件の編集後のサンプルに貢献し、多様なアラビア語の方言や文化的背景のニュアンスを捉える際の LLM のパフォーマンスを向上させるためのカスタマイズされたトレーニングの重要性を強調しています。


Arabic, with its rich diversity of dialects, remains significantly underrepresented in Large Language Models, particularly in dialectal variations. We address this gap by introducing seven synthetic datasets in dialects alongside Modern Standard Arabic (MSA), created using Machine Translation (MT) combined with human post-editing. We present AraDiCE, a benchmark for Arabic Dialect and Cultural Evaluation. We evaluate LLMs on dialect comprehension and generation, focusing specifically on low-resource Arabic dialects. Additionally, we introduce the first-ever fine-grained benchmark designed to evaluate cultural awareness across the Gulf, Egypt, and Levant regions, providing a novel dimension to LLM evaluation. Our findings demonstrate that while Arabic-specific models like Jais and AceGPT outperform multilingual models on dialectal tasks, significant challenges persist in dialect identification, generation, and translation. This work contributes ~45K post-edited samples, a cultural benchmark, and highlights the importance of tailored training to improve LLM performance in capturing the nuances of diverse Arabic dialects and cultural contexts. We will release the dialectal translation models and benchmarks curated in this study.


著者 Basel Mousi,Nadir Durrani,Fatema Ahmad,Md. Arid Hasan,Maram Hasanain,Tameem Kabbani,Fahim Dalvi,Shammur Absar Chowdhury,Firoj Alam
発行日 2024-09-17 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: 68T50, cs.AI, cs.CL, F.2.2 パーマリンク