Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

要約

私たちは、複数の大規模言語モデル (LLM) が交渉ゲームにおいて、プレイ、反省、批判することによって自律的に相互に改善できるかどうかを研究します。
私たちがこの質問に興味があるのは、もし LLM が互いに改善できれば、人間の介入を最小限に抑えながら強力な AI エージェントを作成できる可能性を示唆するからです。
2 人の LLM に、それぞれ買い手と売り手の役割を果たしてもらい、相互に交渉してもらいます。
彼らは、買い手はより低い価格を、売り手はより高い価格を目標として、取引に達することを目指しています。
批評家を演じる 3 番目の言語モデルは、プレーヤーの交渉戦略を改善するためにプレーヤーにフィードバックを提供します。
2 人のエージェントに複数のラウンドをプレイさせ、以前の交渉履歴と AI フィードバックをコンテキスト内のデモンストレーションとして使用して、モデルの交渉戦略を反復的に改善しました。
役割ごとに異なる LLM (GPT と Claude) を使用し、評価指標として取引価格を使用します。
私たちの実験では、複数の興味深い発見が明らかになりました: (1) 私たちが検討している言語モデルのサブセットのみがセルフプレイして AI フィードバックから取引価格を改善できます。弱いモデルはゲームのルールを理解していないか、さらなる改善のために AI フィードバックを組み込むことができません。
(2) 役割が異なると、フィードバックから学習するモデルの能力も異なります。
たとえば、Claude-instant が売り手としてよりも買い手として成長することは困難です。
(3) ゲームを複数のラウンドに展開する場合、より強力なエージェントは、これまでの経験と反復的な AI フィードバックを有意義に使用することでパフォーマンスを一貫して向上させることができますが、取引を破棄するリスクは高くなります。
私たちの研究が、ゲームプレイと AI フィードバックによってモデルを自律的に相互に改善させるという洞察力に富んだ初期の探求を提供することを願っています。

要約(オリジナル)

We study whether multiple large language models (LLMs) can autonomously improve each other in a negotiation game by playing, reflecting, and criticizing. We are interested in this question because if LLMs were able to improve each other, it would imply the possibility of creating strong AI agents with minimal human intervention. We ask two LLMs to negotiate with each other, playing the roles of a buyer and a seller, respectively. They aim to reach a deal with the buyer targeting a lower price and the seller a higher one. A third language model, playing the critic, provides feedback to a player to improve the player’s negotiation strategies. We let the two agents play multiple rounds, using previous negotiation history and AI feedback as in-context demonstrations to improve the model’s negotiation strategy iteratively. We use different LLMs (GPT and Claude) for different roles and use the deal price as the evaluation metric. Our experiments reveal multiple intriguing findings: (1) Only a subset of the language models we consider can self-play and improve the deal price from AI feedback, weaker models either do not understand the game’s rules or cannot incorporate AI feedback for further improvement. (2) Models’ abilities to learn from the feedback differ when playing different roles. For example, it is harder for Claude-instant to improve as the buyer than as the seller. (3) When unrolling the game to multiple rounds, stronger agents can consistently improve their performance by meaningfully using previous experiences and iterative AI feedback, yet have a higher risk of breaking the deal. We hope our work provides insightful initial explorations of having models autonomously improve each other with game playing and AI feedback.

arxiv情報

著者 Yao Fu,Hao Peng,Tushar Khot,Mirella Lapata
発行日 2023-05-17 11:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク