要約
大規模な言語モデル(LLM)は説得の影響を受けやすく、モデルが敵対的な対談者に直面している場合にリスクをもたらす可能性があります。
私たちは、説得に対するモデルを擁護するための第一歩を踏み出し、敵対的な(つまり否定的な)説得に対する防御は方程式の半分にすぎないと主張します。モデルは、答えを改善するために有益な(すなわち肯定的な)説得を受け入れることができるはずです。
一方の側のみのモデルを最適化すると、他方のパフォーマンスが低下することが示されます。
肯定的な説得と否定的な説得のバランスをとるために、マルチエージェントの再帰的ダイアログツリーを活用して、必要に応じて説得を受け入れるように設定最適化を介してデータとトレーニングモデルを作成する説得訓練(またはPBT)を導入します。
PBTを使用すると、はるかに大きな70Bモデルをトレーニングするために、より小さな7-8Bモデル間でダイアログから生成されたデータを使用できます。
さらに、PBTは、誤った情報に対する抵抗と挑戦への回復力に対する抵抗を一貫して改善し、その結果、肯定的および否定的な説得の両方を含む全体的なデータの全体的なパフォーマンスが最も得られます。
重要なことに、PBTモデルは、2つのドメイン(TriviaとCommonsense QA)にわたるマルチエージェントの議論の中でより優れたチームメイトであることを示しています。
PBTがなければ、より強力なモデルと弱いモデルのペアが不安定なパフォーマンスを持っていることがわかり、モデルが回答を提示して、チームがより強いモデルのパフォーマンスを取得するか弱いモデルのパフォーマンスを取得するかを決定します。
PBTは、より良いモデルを一貫してより弱いモデルを引き上げることで、より良く、より安定した結果と秩序の依存度が低くなります。
要約(オリジナル)
Large language models (LLMs) are susceptible to persuasion, which can pose risks when models are faced with an adversarial interlocutor. We take a first step towards defending models against persuasion while also arguing that defense against adversarial (i.e. negative) persuasion is only half of the equation: models should also be able to accept beneficial (i.e. positive) persuasion to improve their answers. We show that optimizing models for only one side results in poor performance on the other. In order to balance positive and negative persuasion, we introduce Persuasion-Training (or PBT), which leverages multi-agent recursive dialogue trees to create data and trains models via preference optimization to accept persuasion when appropriate. PBT allows us to use data generated from dialogues between smaller 7-8B models for training much larger 70B models. Moreover, PBT consistently improves resistance to misinformation and resilience to being challenged while also resulting in the best overall performance on holistic data containing both positive and negative persuasion. Crucially, we show that PBT models are better teammates in multi-agent debates across two domains (trivia and commonsense QA). We find that without PBT, pairs of stronger and weaker models have unstable performance, with the order in which the models present their answers determining whether the team obtains the stronger or weaker model’s performance. PBT leads to better and more stable results and less order dependence, with the stronger model consistently pulling the weaker one up.
arxiv情報
著者 | Elias Stengel-Eskin,Peter Hase,Mohit Bansal |
発行日 | 2025-02-10 14:09:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google