Learning Communication Policies for Different Follower Behaviors in a Collaborative Reference Game

要約

Albrecht and Stone (2018) は、変化する行動のモデリングは「他のエージェントが行うことの本質的に制約を受けない性質のため」依然として未解決の問題であると述べています。
この研究では、協力的な参照ゲームで想定されるパートナーの行動に対する神経人工エージェントの適応性を評価します。
このゲームでは、知識豊富なガイドが口頭でフォロワーを誘導し、いくつかの気を散らすものの中から特定のパズルのピースを選択できるようになったときに成功します。
私たちは、この言語のグラウンディングと調整タスクを強化学習の問題として組み立て、一般的な強化トレーニング アルゴリズム (PPO) が、言語の次元に沿って変化するさまざまなヒューリスティックなフォロワーの動作で適切に機能するニューラル エージェント (ガイド) をどの程度生成できるかを測定します。
自信と自主性。
目標条件に加えて、想定されるコミュニケーション努力も尊重する学習信号を実験します。
私たちの結果は、この新しい要素があまり冗長ではない(一部のステップでは沈黙を保つ)コミュニケーション戦略につながり、それに関してガイドの戦略が実際にパートナーの信頼と自主性のレベルに適応していることを示しています。

要約(オリジナル)

Albrecht and Stone (2018) state that modeling of changing behaviors remains an open problem ‘due to the essentially unconstrained nature of what other agents may do’. In this work we evaluate the adaptability of neural artificial agents towards assumed partner behaviors in a collaborative reference game. In this game success is achieved when a knowledgeable Guide can verbally lead a Follower to the selection of a specific puzzle piece among several distractors. We frame this language grounding and coordination task as a reinforcement learning problem and measure to which extent a common reinforcement training algorithm (PPO) is able to produce neural agents (the Guides) that perform well with various heuristic Follower behaviors that vary along the dimensions of confidence and autonomy. We experiment with a learning signal that in addition to the goal condition also respects an assumed communicative effort. Our results indicate that this novel ingredient leads to communicative strategies that are less verbose (staying silent in some of the steps) and that with respect to that the Guide’s strategies indeed adapt to the partner’s level of confidence and autonomy.

arxiv情報

著者 Philipp Sadler,Sherzod Hakimov,David Schlangen
発行日 2024-02-07 13:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク