Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction

要約

大規模言語モデル (LLM) を調整する取り組みは、主にヒューマン フィードバックからの強化学習 (RLHF) 手法を通じて行われます。
ただし、RLHF は、トレーニング報酬モデル、アクタークリティカル エンジニアリング、そして重要なことに、LLM パラメーターへのアクセスを必要とするなどの大きな課題に直面しています。
ここでは、整列された答えと整列されていない答えの間の補正残差を学習することで RLHF プロセス全体をバイパスする、新しい効率的な整列パラダイムである Aligner を紹介します。
当社のアライナーにはいくつかの重要な利点があります。
まず、これは教師あり学習を介してクエリ-回答-修正データセットでトレーニングされる自己回帰 seq2seq モデルです。
これにより、最小限のリソースでパラメータ効率の高い位置合わせソリューションが提供されます。
第二に、アライナーは弱いものから強いものへの一般化を容易にします。
Aligner の監視信号によって大規模な事前トレーニング済みモデルを微調整すると、強力なパフォーマンス向上が実証されます。
第三に、Aligner はモデルに依存しないプラグ アンド プレイ モジュールとして機能し、さまざまなオープンソース モデルや API ベースのモデルに直接適用できるようになります。
注目すべきことに、Aligner-7B は 11 の異なる LLM を平均して有用性で 21.9%、無害性で 23.8% 改善しました (GPT-4 は 17.5% と 26.9%)。
(弱い) Aligner-13B の監視下で (強い) Llama2-70B を微調整すると、Llama2 の有用性が 8.2%、無害性が 61.6% 向上します。
https://aligner2024.github.io でデータセットとコードをご覧ください。

要約(オリジナル)

Efforts to align Large Language Models (LLMs) are mainly conducted via Reinforcement Learning from Human Feedback (RLHF) methods. However, RLHF encounters major challenges including training reward models, actor-critic engineering, and importantly, it requires access to LLM parameters. Here we introduce Aligner, a new efficient alignment paradigm that bypasses the whole RLHF process by learning the correctional residuals between the aligned and the unaligned answers. Our Aligner offers several key advantages. Firstly, it is an autoregressive seq2seq model that is trained on the query-answer-correction dataset via supervised learning; this offers a parameter-efficient alignment solution with minimal resources. Secondly, the Aligner facilitates weak-to-strong generalization; finetuning large pretrained models by Aligner’s supervisory signals demonstrates strong performance boost. Thirdly, Aligner functions as a model-agnostic plug-and-play module, allowing for its direct application on different open-source and API-based models. Remarkably, Aligner-7B improves 11 different LLMs by 21.9% in helpfulness and 23.8% in harmlessness on average (GPT-4 by 17.5% and 26.9%). When finetuning (strong) Llama2-70B with (weak) Aligner-13B’s supervision, we can improve Llama2 by 8.2% in helpfulness and 61.6% in harmlessness. See our dataset and code at https://aligner2024.github.io

arxiv情報

著者 Jiaming Ji,Boyuan Chen,Hantao Lou,Donghai Hong,Borong Zhang,Xuehai Pan,Juntao Dai,Yaodong Yang
発行日 2024-02-06 18:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク