Towards a Unified View of Preference Learning for Large Language Models: A Survey

要約

大規模言語モデル (LLM) は、非常に強力な機能を発揮します。
成功を達成するための重要な要素の 1 つは、LLM の出力を人間の好みに合わせることです。
この調整プロセスでは、多くの場合、LLM のパフォーマンスを効率的に向上させるために少量のデータしか必要としません。
この分野の研究は効果的ではありますが、複数の領域にまたがっており、関連する手法を理解するのは比較的複雑です。
さまざまな方法間の関係は十分に調査されておらず、優先順位の調整の発展が制限されています。
これを考慮して、私たちは既存の一般的な調整戦略をさまざまなコンポーネントに分割し、現在の調整戦略を研究するための統一フレームワークを提供し、それによってそれらの間のつながりを確立します。
この調査では、嗜好学習におけるすべての戦略を 4 つのコンポーネント (モデル、データ、フィードバック、アルゴリズム) に分解します。
この統一されたビューにより、既存のアライメント アルゴリズムを深く理解できるようになり、さまざまな戦略の長所を相乗させる可能性も広がります。
さらに、読者の包括的な理解を促進するために、一般的な既存のアルゴリズムの詳細な動作例を示します。
最後に、私たちの統一された視点に基づいて、大規模な言語モデルを人間の好みに合わせるための課題と将来の研究の方向性を探ります。

要約(オリジナル)

Large Language Models (LLMs) exhibit remarkably powerful capabilities. One of the crucial factors to achieve success is aligning the LLM’s output with human preferences. This alignment process often requires only a small amount of data to efficiently enhance the LLM’s performance. While effective, research in this area spans multiple domains, and the methods involved are relatively complex to understand. The relationships between different methods have been under-explored, limiting the development of the preference alignment. In light of this, we break down the existing popular alignment strategies into different components and provide a unified framework to study the current alignment strategies, thereby establishing connections among them. In this survey, we decompose all the strategies in preference learning into four components: model, data, feedback, and algorithm. This unified view offers an in-depth understanding of existing alignment algorithms and also opens up possibilities to synergize the strengths of different strategies. Furthermore, we present detailed working examples of prevalent existing algorithms to facilitate a comprehensive understanding for the readers. Finally, based on our unified perspective, we explore the challenges and future research directions for aligning large language models with human preferences.

arxiv情報

著者 Bofei Gao,Feifan Song,Yibo Miao,Zefan Cai,Zhe Yang,Liang Chen,Helan Hu,Runxin Xu,Qingxiu Dong,Ce Zheng,Wen Xiao,Ge Zhang,Daoguang Zan,Keming Lu,Bowen Yu,Dayiheng Liu,Zeyu Cui,Jian Yang,Lei Sha,Houfeng Wang,Zhifang Sui,Peiyi Wang,Tianyu Liu,Baobao Chang
発行日 2024-09-09 09:31:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク