Aligner: Efficient Alignment by Learning to Correct

要約

大規模言語モデル(LLM)の急速な発展と、常に進化し続ける実用的な要件により、効率的で効果的なアライメント手法を見つけることがかつてないほど重要になっている。しかし、現在のアライメント手法の複雑さと、展開シナリオにおける迅速な反復の必要性との間の緊張のため、これらの制約下で動作可能な、モデルに依存しないアライメント手法の開発が必要である。本論文では、新規かつシンプルなアライメントパラダイムであるAlignerを紹介する。Alignerは、小さなモデルを用いて、好ましい解答と好ましくない解答の間の補正残差を学習する。モデルにとらわれないプラグアンドプレイモジュールとして設計されたAlignerは、様々なオープンソースやAPIベースのモデルに直接適用することができ、1回のみの学習で済むため、迅速な反復学習に適している。特筆すべきは、Alignerは強力で大規模なアップストリームモデルにも適用できるということです。さらに、モデルの性能の上限を突破するために、補正された応答を合成人間嗜好データとして用いて、上流モデルを反復的にブートストラップすることもできる。我々の実験では、同じAlignerモデルを11の異なるLLMに展開し、3H次元(有用性、無害性、誠実性)で評価することで、性能の向上を実証した。特に、Aligner-7Bは、テストされたLLMで平均68.9%の有用性と23.8%の無害性の改善を達成し、同時に幻覚を効果的に削減した。Alpaca-Evalのリーダーボードでは、GPT-4 TurboにAligner-2Bをスタックすることで、LC勝率が55.0%から58.3%に向上し、GPT-4 Omniの勝率57.5%を上回った(コミュニティレポート)。

要約(オリジナル)

With the rapid development of large language models (LLMs) and ever-evolving practical requirements, finding an efficient and effective alignment method has never been more critical. However, the tension between the complexity of current alignment methods and the need for rapid iteration in deployment scenarios necessitates the development of a model-agnostic alignment approach that can operate under these constraints. In this paper, we introduce Aligner, a novel and simple alignment paradigm that learns the correctional residuals between preferred and dispreferred answers using a small model. Designed as a model-agnostic, plug-and-play module, Aligner can be directly applied to various open-source and API-based models with only one-off training, making it suitable for rapid iteration. Notably, Aligner can be applied to any powerful, large-scale upstream models. Moreover, it can even iteratively bootstrap the upstream models using corrected responses as synthetic human preference data, breaking through the model’s performance ceiling. Our experiments demonstrate performance improvements by deploying the same Aligner model across 11 different LLMs, evaluated on the 3H dimensions (helpfulness, harmlessness, and honesty). Specifically, Aligner-7B has achieved an average improvement of 68.9\% in helpfulness and 23.8\% in harmlessness across the tested LLMs while also effectively reducing hallucination. In the Alpaca-Eval leaderboard, stacking Aligner-2B on GPT-4 Turbo improved its LC Win Rate from 55.0\% to 58.3\%, surpassing GPT-4 Omni’s 57.5\% Win Rate (community report).

arxiv情報

著者 Jiaming Ji,Boyuan Chen,Hantao Lou,Donghai Hong,Borong Zhang,Xuehai Pan,Juntao Dai,Tianyi Qiu,Yaodong Yang
発行日 2024-06-03 14:33:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク