Uncovering Factor Level Preferences to Improve Human-Model Alignment

要約

大規模言語モデル (LLM) の調整が進歩したにもかかわらず、LLM 設定の背後にある理由を理解することは、望ましい動作と実際の動作の間のギャップを埋めるために依然として重要です。
LLM は、特定の書き方を好んだり、過度に冗長な出力を生成したりするなど、人間の好みとは異なるバイアスや傾向を示すことがよくあります。
しかし、嗜好の整合性を評価するための現在の方法は、多くの場合、説明可能性に欠けており、粗い比較に依存しています。
これに対処するために、プリファレンスを駆動する特定の要因の影響を明らかにし、定量化する新しいフレームワークである PROFILE (PRObing Factors of InfLuence for Explainability) を導入します。
PROFILE の因子レベル分析は、人間とモデルの整合性と不整合の背後にある「理由」を説明し、モデル改善の方向性についての洞察を提供します。
私たちは PROFILE を適用して、要約、役立つ応答の生成、文書ベースの質問応答という 3 つのタスクにわたって人間と LLM の好みを分析します。
私たちの因子レベル分析により、生成タスクでは人間と LLM の好みの間に大きな差異があることが明らかになりましたが、LLM は評価タスクでは人間の好みと強い一致を示しました。
私たちは、不整合な要因への対処や世代と評価のギャップの活用など、要因レベルの洞察を活用することで、人間の好みとの整合性をどのように改善できるかを実証します。
この研究は、説明可能な嗜好分析の重要性を強調し、貴重なトレーニング信号を提供する PROFILE の可能性を強調し、人間モデルの整合性をさらに向上させます。

要約(オリジナル)

Despite advancements in Large Language Model (LLM) alignment, understanding the reasons behind LLM preferences remains crucial for bridging the gap between desired and actual behavior. LLMs often exhibit biases or tendencies that diverge from human preferences, such as favoring certain writing styles or producing overly verbose outputs. However, current methods for evaluating preference alignment often lack explainability, relying on coarse-grained comparisons. To address this, we introduce PROFILE (PRObing Factors of InfLuence for Explainability), a novel framework that uncovers and quantifies the influence of specific factors driving preferences. PROFILE’s factor level analysis explains the ‘why’ behind human-model alignment and misalignment, offering insights into the direction of model improvement. We apply PROFILE to analyze human and LLM preferences across three tasks: summarization, helpful response generation, and document-based question-answering. Our factor level analysis reveals a substantial discrepancy between human and LLM preferences in generation tasks, whereas LLMs show strong alignment with human preferences in evaluation tasks. We demonstrate how leveraging factor level insights, including addressing misaligned factors or exploiting the generation-evaluation gap, can improve alignment with human preferences. This work underscores the importance of explainable preference analysis and highlights PROFILE’s potential to provide valuable training signals, driving further improvements in human-model alignment.

arxiv情報

著者 Juhyun Oh,Eunsu Kim,Jiseon Kim,Wenda Xu,Inha Cha,William Yang Wang,Alice Oh
発行日 2024-10-09 15:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク