ALaRM: Align Language Models via Hierarchical Rewards Modeling

要約

ALaRM は、人間のフィードバックによる強化学習 (RLHF) における階層型報酬をモデリングする最初のフレームワークであり、大規模言語モデル (LLM) と人間の好みとの整合性を強化するように設計されています。
このフレームワークは、総合的な報酬と側面固有の報酬を統合することにより、人間の監視信号の不一致や希薄さに悩まされることが多い現在の調整アプローチの限界に対処します。
この統合により、特に複雑でオープンなテキスト生成タスクにおいて、望ましい結果に向けて言語モデルをより正確かつ一貫してガイダンスできるようになります。
一貫性に基づいて複数の報酬をフィルタリングして組み合わせる方法論を採用することで、フレームワークはモデルの整合性を向上させるための信頼できるメカニズムを提供します。
私たちは、ペアごとの比較に gpt-3.5-turbo を採用した長文質問応答および機械翻訳タスクのアプリケーションを通じてアプローチを検証し、既存のベースラインに対する改善を実証します。
私たちの研究は、人間の好みの調整を改善するために LLM トレーニング プロセスを改良する際の階層的報酬モデリングの有効性を強調しています。
コードは https://ALaRM-fdu.github.io でリリースされます。

要約(オリジナル)

We introduce ALaRM, the first framework modeling hierarchical rewards in reinforcement learning from human feedback (RLHF), which is designed to enhance the alignment of large language models (LLMs) with human preferences. The framework addresses the limitations of current alignment approaches, which often struggle with the inconsistency and sparsity of human supervision signals, by integrating holistic rewards with aspect-specific rewards. This integration enables more precise and consistent guidance of language models towards desired outcomes, particularly in complex and open text generation tasks. By employing a methodology that filters and combines multiple rewards based on their consistency, the framework provides a reliable mechanism for improving model alignment. We validate our approach through applications in long-form question answering and machine translation tasks, employing gpt-3.5-turbo for pairwise comparisons, and demonstrate improvements over existing baselines. Our work underscores the effectiveness of hierarchical rewards modeling in refining LLM training processes for better human preference alignment. We release our code at https://ALaRM-fdu.github.io.

arxiv情報

著者 Yuhang Lai,Siyuan Wang,Shujun Liu,Xuanjing Huang,Zhongyu Wei
発行日 2024-03-11 14:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク