ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization

要約

Large Language Model (LLM) は、安全なコンテンツの生成を保証するために Human Preference Alignment (HPA) に依存しています。
微調整には多大なコストがかかるため、通常は外部補助メソッドを使用して LLM デコードを変更する、微調整不要の方法が登場しました。
ただし、これらの方法は本質的に LLM 自体を強化するものではありません。
この論文では、DPO の導出手順を再考し、これに基づいて、インコンテキスト学習 (ICL) の前後の LLM の状態を使用してインスタント スコアラーを逆に構築します。
したがって、私たちは、In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しいアプローチを提案します。
これにより、LLM は ICL を備えた優れた LLM から HPA 機能を借用し、前述のインスタント スコアラーによって推定されたとおりに適切に調整された応答を生成し、それによって最終的なパフォーマンスを向上させることができます。
ICDPO は、2 段階のレトリーバーとアップグレードされたスコアラーによってさらに強化でき、どちらも利点があります。
広範な実験により、その有効性、特に微調整不要の 2 つのベースラインを上回るパフォーマンスが示されており、SFT + LoRA との競争力を示しています。
また、ICDPO に関する包括的な洞察を提供するために詳細な分析も実施します。

要約(オリジナル)

Large Language Models (LLMs) rely on Human Preference Alignment (HPA) to ensure the generation of safe content. Due to the heavy cost associated with fine-tuning, fine-tuning-free methods have emerged, typically modifying LLM decoding with external auxiliary methods. However, these methods do not essentially enhance the LLM itself. In this paper, we rethink the derivation procedures of DPO, based on which we conversely build an instant scorer using the states of the LLM before and after In-context Learning (ICL). Accordingly, we propose a novel approach called In-Context Direct Preference Optimization (ICDPO). It enables LLMs to borrow the HPA capabilities from superior LLMs with ICL, generating well-aligned responses as estimated by the aforementioned instant scorer, thereby enhancing the final performance. ICDPO can be further enhanced with a two-stage retriever and an upgraded scorer, both offering benefits. Extensive experiments show its effectiveness, particularly in outperforming two fine-tuning-free baselines, and it exhibits competitiveness with SFT + LoRA. We also conduct detailed analyses to offer comprehensive insights into ICDPO.

arxiv情報

著者 Feifan Song,Yuxuan Fan,Xin Zhang,Peiyi Wang,Houfeng Wang
発行日 2024-02-14 17:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク