Targeted Manipulation and Deception Emerge when Optimizing LLMs for User Feedback

要約

LLM の導入がより広範囲になるにつれて、有料のアノテーターからのフィードバックに加えて、エンド ユーザーからのフィードバック (親指など) を直接最適化することへの関心が高まっています。
しかし、人間のフィードバックを最大化するためのトレーニングは、AI が肯定的なフィードバックを得るために操作的な戦術に頼るという倒錯したインセンティブ構造を生み出し、一部のユーザーはそのような戦術に対して特に脆弱になる可能性があります。
私たちは、シミュレートされたユーザーのフィードバックを使用して強化学習を使用して LLM をトレーニングすることで、この現象を研究します。
主な発見は 3 つあります。 1) 操作や欺瞞などの極端な形式の「フィードバック ゲーム」は、実際の LLM 使用の領域で確実に出現する可能性があります。
2) 懸念すべきことに、操作戦略に対して脆弱なユーザーが 2% 未満であっても、LLM は他のユーザーに対して適切に行動しながら、そのユーザーを特定して外科的に標的にすることを学習するため、そのような行動の検出が困難になります。
3 この問題を軽減するには、継続的な安全トレーニング、またはトレーニング中に審査員としての LLM を活用して、問題のある出力をフィルタリングすることが有望に思えるかもしれません。
驚いたことに、そのようなアプローチは一部の状況では効果がある一方で、他の状況では裏目に出て、LLM の審査員を欺くことになる、より微妙な問題行動の出現につながることがわかりました。
私たちの調査結果は警告として機能し、ユーザー フィードバックなどのゲーム可能なフィードバック ソースを RL のターゲットとして使用することのリスクを強調しています。

要約(オリジナル)

As LLMs become more widely deployed, there is increasing interest in directly optimizing for feedback from end users (e.g. thumbs up) in addition to feedback from paid annotators. However, training to maximize human feedback creates a perverse incentive structure for the AI to resort to manipulative tactics to obtain positive feedback, and some users may be especially vulnerable to such tactics. We study this phenomenon by training LLMs with Reinforcement Learning with simulated user feedback. We have three main findings: 1) Extreme forms of ‘feedback gaming’ such as manipulation and deception can reliably emerge in domains of practical LLM usage; 2) Concerningly, even if only <2% of users are vulnerable to manipulative strategies, LLMs learn to identify and surgically target them while behaving appropriately with other users, making such behaviors harder to detect; 3 To mitigate this issue, it may seem promising to leverage continued safety training or LLM-as-judges during training to filter problematic outputs. To our surprise, we found that while such approaches help in some settings, they backfire in others, leading to the emergence of subtler problematic behaviors that would also fool the LLM judges. Our findings serve as a cautionary tale, highlighting the risks of using gameable feedback sources -- such as user feedback -- as a target for RL.

arxiv情報

著者 Marcus Williams,Micah Carroll,Adhyyan Narang,Constantin Weisser,Brendan Murphy,Anca Dragan
発行日 2024-11-04 17:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク