要約
この論文では、ChatGPT のような現在の主流モデルでは十分に対処されていない、独自の文化的特徴を持つ言語であるアラビア語に合わせてローカライズされた大規模言語モデル (LLM) を開発するための不可欠な必要性と方法論を検討します。
さらに、文化的配慮や地域の価値観を考慮すると、重要な懸念が生じます。
この目的を達成するために、この文書では、アラビア語テキストによるさらなる事前トレーニング、ネイティブのアラビア語命令とアラビア語の GPT-4 応答を使用した教師あり微調整 (SFT)、および AI フィードバックによる強化学習 (RLAIF) を含む、パッケージ化されたソリューションの概要を説明します。
地域の文化や価値観を考慮した報酬モデル。
目的は、アラビア語圏コミュニティのアプリケーション固有の多様なニーズに対応できる、文化を意識し、価値観を合わせたアラビア語 LLM を訓練することです。
広範な評価により、結果として得られた「AceGPT」と呼ばれる LLM が、命令に従うベンチマーク (つまり、アラビア語の Vicuna-80 およびアラビア語の AlpacaEval)、知識ベンチマーク (つまり、アラビア語の MMLU および EXAM) を含むさまざまなベンチマークにおいて SOTA オープン アラビア語 LLM であることが実証されました。
新しく提案されたアラビアの文化的価値観調整ベンチマーク。
特に、AceGPT は、ベンチマークの規模が限られているにもかかわらず、GPT-4 で評価した場合、人気の Vicuna-80 ベンチマークで ChatGPT を上回っています。
% Natural Language Understanding (NLU) ベンチマーク (ALUE) コード、データ、モデルは https://github.com/FreedomIntelligence/AceGPT にあります。
要約(オリジナル)
This paper explores the imperative need and methodology for developing a localized Large Language Model (LLM) tailored for Arabic, a language with unique cultural characteristics that are not adequately addressed by current mainstream models like ChatGPT. Key concerns additionally arise when considering cultural sensitivity and local values. To this end, the paper outlines a packaged solution, including further pre-training with Arabic texts, supervised fine-tuning (SFT) using native Arabic instructions and GPT-4 responses in Arabic, and reinforcement learning with AI feedback (RLAIF) using a reward model that is sensitive to local culture and values. The objective is to train culturally aware and value-aligned Arabic LLMs that can serve the diverse application-specific needs of Arabic-speaking communities. Extensive evaluations demonstrated that the resulting LLM called `AceGPT’ is the SOTA open Arabic LLM in various benchmarks, including instruction-following benchmark (i.e., Arabic Vicuna-80 and Arabic AlpacaEval), knowledge benchmark (i.e., Arabic MMLU and EXAMs), as well as the newly-proposed Arabic cultural \& value alignment benchmark. Notably, AceGPT outperforms ChatGPT in the popular Vicuna-80 benchmark when evaluated with GPT-4, despite the benchmark’s limited scale. % Natural Language Understanding (NLU) benchmark (i.e., ALUE) Codes, data, and models are in https://github.com/FreedomIntelligence/AceGPT.
arxiv情報
著者 | Huang Huang,Fei Yu,Jianqing Zhu,Xuening Sun,Hao Cheng,Dingjie Song,Zhihong Chen,Abdulmohsen Alharthi,Bang An,Ziche Liu,Zhiyi Zhang,Junying Chen,Jianquan Li,Benyou Wang,Lian Zhang,Ruoyu Sun,Xiang Wan,Haizhou Li,Jinchao Xu |
発行日 | 2023-09-22 12:34:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google