Learning Multi-Object Positional Relationships via Emergent Communication

要約

創発的コミュニケーションの研究は、インタラクティブな人工知能に専念してきました。
既存の研究は単一のオブジェクトまたは複雑な画像シーンに関するコミュニケーションに焦点を当てていますが、より現実的なタスクでは複数のオブジェクト間の関係のコミュニケーションが重要であると主張していますが、十分に研究されていません。
この論文では、このギャップを埋めようとし、2 つのオブジェクト間の位置関係に関する緊急のコミュニケーションに焦点を当てます。
観測に2つのオブジェクトが含まれる参照ゲームでエージェントをトレーニングし、位置関係が関与する場合、一般化が主要な問題であることを発見しました。
創発言語の一般化能力に影響を与える重要な要因は、スピーカーとリスナーの間の入力の変動です。これは、私たちの作業のランダム画像ジェネレーターによって実現されます。
さらに、学習した言語は、位置関係が目標を説明する新しいマルチステップ MDP タスクでうまく一般化できることがわかり、未加工のピクセル画像や事前トレーニング済みの画像機能よりも優れたパフォーマンスを発揮し、強力な一般化能力を検証します。
離散シーケンス。
また、参照ゲームからの言語伝達は、このタスクで言語を直接学習するよりも、新しいタスクでうまく機能することも示しており、参照ゲームでの事前トレーニングの潜在的な利点を示唆しています。
全体として、私たちの実験は、エージェントが緊急通信を通じて複数のオブジェクト間の位置関係を通信することを学習させることの実行可能性とメリットを示しています。

要約(オリジナル)

The study of emergent communication has been dedicated to interactive artificial intelligence. While existing work focuses on communication about single objects or complex image scenes, we argue that communicating relationships between multiple objects is important in more realistic tasks, but understudied. In this paper, we try to fill this gap and focus on emergent communication about positional relationships between two objects. We train agents in the referential game where observations contain two objects, and find that generalization is the major problem when the positional relationship is involved. The key factor affecting the generalization ability of the emergent language is the input variation between Speaker and Listener, which is realized by a random image generator in our work. Further, we find that the learned language can generalize well in a new multi-step MDP task where the positional relationship describes the goal, and performs better than raw-pixel images as well as pre-trained image features, verifying the strong generalization ability of discrete sequences. We also show that language transfer from the referential game performs better in the new task than learning language directly in this task, implying the potential benefits of pre-training in referential games. All in all, our experiments demonstrate the viability and merit of having agents learn to communicate positional relationships between multiple objects through emergent communication.

arxiv情報

著者 Yicheng Feng,Boshi An,Zongqing Lu
発行日 2023-02-16 04:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク