要約
大規模言語モデル (LLM) の開発は、ヒューマン フィードバックを伴う強化学習 (RLHF) フレームワークにおけるヒューマン アノテーターへの依存度の高さ、または自己指示パラダイムに関連付けられた頻繁でコストのかかる外部クエリに起因する課題に直面することがよくあります。
この研究では、強化学習 (RL) に焦点を当てますが、ひねりが加えられています。
命令データのトレーニング後に LLM を調整する一般的な RLHF とは異なり、RL を使用して、単独で微調整に十分な基本的な命令データセットを直接生成します。
私たちの手法である TeaMs-RL は、一連のテキスト操作とルールを使用し、トレーニング データセットの多様化を優先します。
これにより、外部の高度なモデルに過度に依存することなく高品質のデータの生成が容易になり、単一の微調整ステップへの道が開かれ、後続の RLHF ステージが不要になります。
私たちの調査結果は、人間の関与の必要性が減り、モデル クエリが少なくなり (WizardLM の総額のわずか $5.73\%$)、強力なベースラインと比較して複雑な命令を作成および理解する際の LLM の能力が向上し、モデルが大幅に改善されたという、私たちのアプローチの重要な利点を強調しています。
プライバシー保護。
要約(オリジナル)
The development of Large Language Models (LLMs) often confronts challenges stemming from the heavy reliance on human annotators in the reinforcement learning with human feedback (RLHF) framework, or the frequent and costly external queries tied to the self-instruct paradigm. In this work, we pivot to Reinforcement Learning (RL) — but with a twist. Diverging from the typical RLHF, which refines LLMs following instruction data training, we use RL to directly generate the foundational instruction dataset that alone suffices for fine-tuning. Our method, TeaMs-RL, uses a suite of textual operations and rules, prioritizing the diversification of training datasets. It facilitates the generation of high-quality data without excessive reliance on external advanced models, paving the way for a single fine-tuning step and negating the need for subsequent RLHF stages. Our findings highlight key advantages of our approach: reduced need for human involvement and fewer model queries (only $5.73\%$ of WizardLM’s total), along with enhanced capabilities of LLMs in crafting and comprehending complex instructions compared to strong baselines, and substantially improved model privacy protection.
arxiv情報
著者 | Shangding Gu,Alois Knoll,Ming Jin |
発行日 | 2024-03-13 16:57:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google