Zero-shot cross-modal transfer of Reinforcement Learning policies through a Global Workspace

要約

人間は複数の感覚を通じて世界を認識し、周囲の包括的な表現を作成し、領域を超えて情報を一般化することができます。
たとえば、シーンのテキストによる説明が与えられると、人間はそれを頭の中で視覚化できます。
ロボット工学や強化学習 (RL) などの分野では、エージェントは複数のセンサーを通じて環境に関する情報にアクセスすることもできます。
しかし、センサー間の冗長性と相補性を、堅牢性 (センサー障害に対するものなど) または一般化 (ドメイン間の転送など) の源として利用することは困難です。
これまでの研究では、「グローバル ワークスペース」という認知科学の概念に基づいて、堅牢かつ柔軟なマルチモーダル表現を効率的に構築できることが実証されました。グローバル ワークスペースとは、モダリティ間で情報を結合し、その信号を各モダリティにブロードキャストするように訓練された独自の表現です。
ここでは、このような脳にヒントを得たマルチモーダル表現が RL エージェントにとって有利であるかどうかを検討します。
まず、2 つの入力形式 (視覚入力、またはエージェントおよび/またはその環境の状態を表す属性ベクトル) を介して環境に関して収集された情報を活用するように「グローバル ワークスペース」をトレーニングします。
次に、この凍結されたグローバル ワークスペースを使用して RL エージェント ポリシーをトレーニングします。
2 つの異なる環境とタスクにおいて、私たちの結果は、追加のトレーニングやトレーニングを行わずに、入力モダリティ間でゼロショット クロスモーダル転送を実行するモデルの能力、つまり、属性ベクトルで事前にトレーニングされたポリシー (またはその逆) を画像入力に適用するモデルの能力を明らかにしました。
微調整。
完全なグローバル ワークスペースのバリアントとアブレーション (対照学習によって訓練された CLIP のようなマルチモーダル表現を含む) は、同じ汎化能力を示さなかった。

要約(オリジナル)

Humans perceive the world through multiple senses, enabling them to create a comprehensive representation of their surroundings and to generalize information across domains. For instance, when a textual description of a scene is given, humans can mentally visualize it. In fields like robotics and Reinforcement Learning (RL), agents can also access information about the environment through multiple sensors; yet redundancy and complementarity between sensors is difficult to exploit as a source of robustness (e.g. against sensor failure) or generalization (e.g. transfer across domains). Prior research demonstrated that a robust and flexible multimodal representation can be efficiently constructed based on the cognitive science notion of a ‘Global Workspace’: a unique representation trained to combine information across modalities, and to broadcast its signal back to each modality. Here, we explore whether such a brain-inspired multimodal representation could be advantageous for RL agents. First, we train a ‘Global Workspace’ to exploit information collected about the environment via two input modalities (a visual input, or an attribute vector representing the state of the agent and/or its environment). Then, we train a RL agent policy using this frozen Global Workspace. In two distinct environments and tasks, our results reveal the model’s ability to perform zero-shot cross-modal transfer between input modalities, i.e. to apply to image inputs a policy previously trained on attribute vectors (and vice-versa), without additional training or fine-tuning. Variants and ablations of the full Global Workspace (including a CLIP-like multimodal representation trained via contrastive learning) did not display the same generalization abilities.

arxiv情報

著者 Léopold Maytié,Benjamin Devillers,Alexandre Arnold,Rufin VanRullen
発行日 2024-03-07 15:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク