AceGPT, Localizing Large Language Models in Arabic

要約

この論文は、現在の主流モデルでは十分に対応できていない独自の文化的特徴が染み込んだ言語であるアラビア語に特化した、ローカライズされた大規模言語モデル (LLM) の開発に特化しています。
文化的配慮や地域の価値観に対処する場合、重大な懸念が生じます。
これに対処するために、この論文では、アラビア語テキストによるさらなる事前トレーニング、ネイティブのアラビア語命令を利用した教師あり微調整 (SFT)、アラビア語での GPT-4 応答、および AI フィードバックによる強化学習 (RLAIF) を含む包括的なソリューションを提案しています。
地域の文化と価値観に合わせた報酬モデル。
目標は、アラビア語を話すコミュニティの多様なアプリケーション固有のニーズに対応できる、文化を認識し、価値観を合わせたアラビア語 LLM を育成することです。
包括的な評価により、「AceGPT」と呼ばれるその結果のモデルが、命令に従うベンチマーク (つまり、アラビア語 Vicuna-80 およびアラビア語 AlpacaEval)、ナレッジを含むさまざまなベンチマークにわたってオープン アラビア語 LLM の最先端の標準を設定していることが明らかになりました。
ベンチマーク (つまり、アラビア語 MMLU および EXAM)、および新しく導入されたアラビア語の文化と価値の整合ベンチマーク。
特に、AceGPT は、ベンチマークの規模が限られているにもかかわらず、GPT-4 で評価した場合、人気の Vicuna-80 ベンチマークで Turbo よりも優れたパフォーマンスを示します。
コード、データ、モデルは https://github.com/FreedomIntelligence/AceGPT にあります。

要約(オリジナル)

This paper is devoted to the development of a localized Large Language Model (LLM) specifically for Arabic, a language imbued with unique cultural characteristics inadequately addressed by current mainstream models. Significant concerns emerge when addressing cultural sensitivity and local values. To address this, the paper proposes a comprehensive solution that includes further pre-training with Arabic texts, Supervised Fine-Tuning (SFT) utilizing native Arabic instructions, and GPT-4 responses in Arabic, alongside Reinforcement Learning with AI Feedback (RLAIF) employing a reward model attuned to local culture and values. The goal is to cultivate culturally cognizant and value-aligned Arabic LLMs capable of accommodating the diverse, application-specific needs of Arabic-speaking communities. Comprehensive evaluations reveal that the resulting model, dubbed ‘AceGPT’, sets the state-of-the-art standard for open Arabic LLMs across various benchmarks, including the instruction-following benchmark (i.e., Arabic Vicuna-80 and Arabic AlpacaEval), knowledge benchmark (i.e., Arabic MMLU and EXAMs), and the newly introduced Arabic Cultural and Value Alignment benchmark. Notably, AceGPT outperforms Turbo in the popular Vicuna-80 benchmark when evaluated with GPT-4, despite the benchmark’s limited scale. Codes, data, and models are in https://github.com/FreedomIntelligence/AceGPT.

arxiv情報

著者 Huang Huang,Fei Yu,Jianqing Zhu,Xuening Sun,Hao Cheng,Dingjie Song,Zhihong Chen,Abdulmohsen Alharthi,Bang An,Ziche Liu,Zhiyi Zhang,Junying Chen,Jianquan Li,Benyou Wang,Lian Zhang,Ruoyu Sun,Xiang Wan,Haizhou Li,Jinchao Xu
発行日 2023-10-12 12:06:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク