Aligning LLM Agents by Learning Latent Preference from User Edits

要約

私たちは、エージェントの出力に対して行われたユーザー編集に基づいて、言語エージェントの対話型学習を研究します。
ライティングアシスタントなどの一般的な環境では、ユーザーは言語エージェントと対話してコンテキストに応じた応答を生成し、オプションでエージェントの応答を編集して、正確性を向上させるだけでなく、潜在的な好みに基づいてエージェントの応答をパーソナライズすることもできます。
編集フィードバックは自然に生成されるため、エージェントとユーザーの好みの調整を改善し、ユーザー編集のコストを長期的に削減するための適切な候補となります。
私たちは、履歴編集データに基づいてユーザーの潜在的な好みの説明を推測し、それを使用して将来の応答生成を促進するプロンプト ポリシーを定義する学習フレームワーク PRELUDE を提案します。
これにより、エージェントの微調整が回避されます。エージェントの微調整にはコストがかかり、ユーザー数に応じて拡張することが難しく、他のタスクのパフォーマンスが低下する可能性もあります。
さらに、記述的な好みを学習することで解釈可能性が向上し、ユーザーが学習した好みを表示および変更できるようになります。
ただし、ユーザーの好みは複雑であり、状況に応じて変化するため、学習が困難になります。
これに対処するために、大規模言語モデル (LLM) を利用して、ユーザーの編集に基づいて特定のコンテキストに対するユーザーの好みを推測する、CIPHER という名前のシンプルかつ効果的なアルゴリズムを提案します。
将来的には、CIPHER は、履歴内で k 番目に近いコンテキストから推測されたプリファレンスを取得し、応答生成のための集約プリファレンスを形成します。
GPT-4 シミュレート ユーザーを使用した評価のために、要約と電子メール作成という 2 つの対話型環境を導入します。
ユーザーの編集を直接取得するが記述的な好みを学習しないアルゴリズムと、コンテキストに依存しない好みを学習するアルゴリズムと比較します。
どちらのタスクでも、CIPHER は最小の編集距離コストを達成し、グラウンド トゥルースの設定と顕著な類似性を示す設定を学習します。

要約(オリジナル)

We study interactive learning of language agents based on user edits made to the agent’s output. In a typical setting such as writing assistants, the user interacts with a language agent to generate a response given a context, and may optionally edit the agent response to personalize it based on their latent preference, in addition to improving the correctness. The edit feedback is naturally generated, making it a suitable candidate for improving the agent’s alignment with the user’s preference, and for reducing the cost of user edits over time. We propose a learning framework, PRELUDE that infers a description of the user’s latent preference based on historic edit data and using it to define a prompt policy that drives future response generation. This avoids fine-tuning the agent, which is costly, challenging to scale with the number of users, and may even degrade its performance on other tasks. Furthermore, learning descriptive preference improves interpretability, allowing the user to view and modify the learned preference. However, user preference can be complex and vary based on context, making it challenging to learn. To address this, we propose a simple yet effective algorithm named CIPHER that leverages a large language model (LLM) to infer the user preference for a given context based on user edits. In the future, CIPHER retrieves inferred preferences from the k-closest contexts in the history, and forms an aggregate preference for response generation. We introduce two interactive environments — summarization and email writing, for evaluation using a GPT-4 simulated user. We compare with algorithms that directly retrieve user edits but do not learn descriptive preference, and algorithms that learn context-agnostic preference. On both tasks, CIPHER achieves the lowest edit distance cost and learns preferences that show significant similarity to the ground truth preferences

arxiv情報

著者 Ge Gao,Alexey Taymanov,Eduardo Salinas,Paul Mineiro,Dipendra Misra
発行日 2024-04-23 17:57:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク