CIDAR: Culturally Relevant Instruction Dataset For Arabic

要約

インストラクションチューニングは、大規模言語モデル(LLM)に指示に従うように教えるための著名な方法論として浮上してきた。しかし、現在のインストラクションデータセットは、主に英語に対応しているか、英語が支配的なLLMに由来しているため、西洋文化へのバイアスが内在しています。このバイアスは、アラブ地域の多様な文化を反映した独特の文法を持つアラビア語のような、英語以外の言語の言語構造に大きな影響を与える。この論文では、人間のレビュアーによって文化的に調整された、初のオープンなアラビア語命令チューニングデータセットであるCIDAR: https://hf.co/datasets/arbml/CIDAR。CIDARには、アラブ地域を代表する10,000のインストラクションとアウトプットのペアが含まれている。他のデータセットでファインチューニングされた他のモデルとの比較分析を通じて、CIDARの文化的関連性について議論する。我々の実験は、CIDARがLLMをアラビア文化に適合させる研究努力を豊かにするのに役立つことを示している。全てのコードはhttps://github.com/ARBML/CIDAR。

要約(オリジナル)

Instruction tuning has emerged as a prominent methodology for teaching Large Language Models (LLMs) to follow instructions. However, current instruction datasets predominantly cater to English or are derived from English-dominated LLMs, resulting in inherent biases toward Western culture. This bias significantly impacts the linguistic structures of non-English languages such as Arabic, which has a distinct grammar reflective of the diverse cultures across the Arab region. This paper addresses this limitation by introducing CIDAR: https://hf.co/datasets/arbml/CIDAR, the first open Arabic instruction-tuning dataset culturally-aligned by human reviewers. CIDAR contains 10,000 instruction and output pairs that represent the Arab region. We discuss the cultural relevance of CIDAR via the analysis and comparison to other models fine-tuned on other datasets. Our experiments show that CIDAR can help enrich research efforts in aligning LLMs with the Arabic culture. All the code is available at https://github.com/ARBML/CIDAR.

arxiv情報

著者 Zaid Alyafeai,Khalid Almubarak,Ahmed Ashraf,Deema Alnuhait,Saied Alshahrani,Gubran A. Q. Abdulrahman,Gamil Ahmed,Qais Gawah,Zead Saleh,Mustafa Ghaleb,Yousef Ali,Maged S. Al-Shaibani
発行日 2024-02-05 16:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク