要約
大規模言語モデル (LLM) は説得されやすいため、モデルが敵対的な対話者に直面した場合にリスクが生じる可能性があります。
私たちは、モデルを説得から守るための第一歩を踏み出しますが、同時に、敵対的な (つまり、否定的な) 説得に対する防御は方程式の半分にすぎないと主張します。モデルは、答えを改善するために有益な (つまり、肯定的な) 説得も受け入れることができる必要があります。
一方の側だけでモデルを最適化すると、もう一方のパフォーマンスが低下することを示します。
ポジティブな説得とネガティブな説得のバランスをとるために、マルチエージェントの再帰的対話ツリーを活用してデータを作成し、適切な場合に説得を受け入れるように好みの最適化を通じてモデルをトレーニングする、説得バランス型トレーニング (または PBT) を導入します。
PBT は、誤った情報に対する耐性と異議申し立てに対する回復力を一貫して向上させると同時に、肯定的な説得と否定的な説得の両方を含む総合的なデータで最高の全体的なパフォーマンスをもたらします。
重要なのは、PBT モデルがマルチエージェントの議論においてより良いチームメイトであることを示しています。
PBT がないと、より強いモデルとより弱いモデルのペアのパフォーマンスが不安定であり、モデルが答えを提示する順序によって、チームがより強いモデルのパフォーマンスを獲得するか、より弱いモデルのパフォーマンスを獲得するかが決まることがわかりました。
PBT は、より優れた安定した結果をもたらし、より強いモデルがより弱いモデルを一貫して引き上げるため、次数依存性が低くなります。
要約(オリジナル)
Large language models (LLMs) are susceptible to persuasion, which can pose risks when models are faced with an adversarial interlocutor. We take a first step towards defending models against persuasion while also arguing that defense against adversarial (i.e. negative) persuasion is only half of the equation: models should also be able to accept beneficial (i.e. positive) persuasion to improve their answers. We show that optimizing models for only one side results in poor performance on the other. In order to balance positive and negative persuasion, we introduce Persuasion-Balanced Training (or PBT), which leverages multi-agent recursive dialogue trees to create data and trains models via preference optimization to accept persuasion when appropriate. PBT consistently improves resistance to misinformation and resilience to being challenged while also resulting in the best overall performance on holistic data containing both positive and negative persuasion. Crucially, we show that PBT models are better teammates in multi-agent debates. We find that without PBT, pairs of stronger and weaker models have unstable performance, with the order in which the models present their answers determining whether the team obtains the stronger or weaker model’s performance. PBT leads to better and more stable results and less order dependence, with the stronger model consistently pulling the weaker one up.
arxiv情報
著者 | Elias Stengel-Eskin,Peter Hase,Mohit Bansal |
発行日 | 2024-10-18 16:49:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google