Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

要約

大規模言語モデル (LLM) 開発の主要なテクノロジーには、モデルの応答を人間の期待に合わせて調整し、優れた学習能力を実現するのに役立つ命令チューニングが含まれます。
命令チューニングの 2 つの主要なアプローチは、教師ありファインチューニング (SFT) とヒューマン フィードバックからの強化学習 (RLHF) を特徴づけており、現在、これらは最高の商用 LLM (ChatGPT など) を生成するために適用されています。
研究開発活動における LLM のアクセシビリティを向上させるために、最近では、Alpaca、Vicuna など、命令に調整されたさまざまなオープンソース LLM も導入されています。
ただし、既存のオープンソース LLM は、英語といくつかの一般的な言語向けにのみ命令調整されているため、世界中の他の多くの言語への影響やアクセシビリティが妨げられています。
複数の言語で LLM の命令チューニングを調査する最近のいくつかの研究の中で、SFT は、複数の言語で LLM の命令をチューニングする唯一のアプローチとして使用されています。
このため、さまざまな言語で RLHF に基づいて微調整された LLM には大きなギャップが残されており、RLHF が多言語命令チューニングのパフォーマンスをどのように向上させることができるかについて重要な疑問が生じています。
この問題を克服するために、複数言語用の RLHF に基づいて命令調整された LLM を備えた最初のシステムである、Okapi を紹介します。
okapi は、将来の多言語 LLM 研究の実験と開発を促進するために、26 の多様な言語での指示と応答のランク付けデータを導入します。
また、複数の言語で生成 LLM を評価できるベンチマーク データセットも紹介します。
私たちの実験では、さまざまな基本モデルとデータセットに対して、多言語指導において SFT よりも RLHF の利点が実証されています。
私たちのフレームワークとリソースは https://github.com/nlp-uoregon/Okapi でリリースされています。

要約(オリジナル)

A key technology for the development of large language models (LLMs) involves instruction tuning that helps align the models’ responses with human expectations to realize impressive learning abilities. Two major approaches for instruction tuning characterize supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF), which are currently applied to produce the best commercial LLMs (e.g., ChatGPT). To improve the accessibility of LLMs for research and development efforts, various instruction-tuned open-source LLMs have also been introduced recently, e.g., Alpaca, Vicuna, to name a few. However, existing open-source LLMs have only been instruction-tuned for English and a few popular languages, thus hindering their impacts and accessibility to many other languages in the world. Among a few very recent work to explore instruction tuning for LLMs in multiple languages, SFT has been used as the only approach to instruction-tune LLMs for multiple languages. This has left a significant gap for fine-tuned LLMs based on RLHF in diverse languages and raised important questions on how RLHF can boost the performance of multilingual instruction tuning. To overcome this issue, we present Okapi, the first system with instruction-tuned LLMs based on RLHF for multiple languages. Okapi introduces instruction and response-ranked data in 26 diverse languages to facilitate the experiments and development of future multilingual LLM research. We also present benchmark datasets to enable the evaluation of generative LLMs in multiple languages. Our experiments demonstrate the advantages of RLHF for multilingual instruction over SFT for different base models and datasets. Our framework and resources are released at https://github.com/nlp-uoregon/Okapi.

arxiv情報

著者 Viet Dac Lai,Chien Van Nguyen,Nghia Trung Ngo,Thuat Nguyen,Franck Dernoncourt,Ryan A. Rossi,Thien Huu Nguyen
発行日 2023-08-02 00:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク