Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors

要約

強化学習はロボット制御タスクで有望な結果を達成しましたが、多くの特性が異なる複数の感覚モダリティからの情報を効果的に活用するのに苦労しています。
最近の研究では、再構築または相互情報に基づいて補助損失を構築し、複数の感覚入力から共同表現を抽出し、強化学習アルゴリズムのサンプル効率とパフォーマンスを向上させています。
ただし、これらの方法で学習された表現は、ポリシーの学習に無関係な情報を取得する可能性があり、パフォーマンスが低下する可能性があります。
私たちは、生のマルチモーダル観察に関する学習された関節表現の情報を圧縮することが役立つと主張し、自己中心的な画像と固有受容からタスクに関連した関節表現を学習するためのマルチモーダル情報ボトルネックモデルを提案します。
私たちのモデルは、圧縮された関節表現を学習するために、マルチモーダル観察の予測情報を圧縮して保持します。これにより、視覚フィードバックと固有受容フィードバックからの補完情報が融合され、一方で生のマルチモーダル観察からタスクに無関係な情報がフィルタリングされます。
私たちは、計算上扱いやすい最適化のために、マルチモーダル情報のボトルネック目標の上限を最小限に抑えることを提案します。
自己中心的な画像と固有受容を使用したいくつかの困難な移動タスクの実験評価では、私たちの方法が主要なベースラインよりも優れたサンプル効率と目に見えないホワイトノイズに対するゼロショットロバスト性を達成していることが示されています。
また、自己中心的な画像と固有受容からの情報を活用することは、単一のモダリティのみを使用するよりも移動タスクの学習ポリシーに役立つことを経験的に示しています。

要約(オリジナル)

Reinforcement learning has achieved promising results on robotic control tasks but struggles to leverage information effectively from multiple sensory modalities that differ in many characteristics. Recent works construct auxiliary losses based on reconstruction or mutual information to extract joint representations from multiple sensory inputs to improve the sample efficiency and performance of reinforcement learning algorithms. However, the representations learned by these methods could capture information irrelevant to learning a policy and may degrade the performance. We argue that compressing information in the learned joint representations about raw multimodal observations is helpful, and propose a multimodal information bottleneck model to learn task-relevant joint representations from egocentric images and proprioception. Our model compresses and retains the predictive information in multimodal observations for learning a compressed joint representation, which fuses complementary information from visual and proprioceptive feedback and meanwhile filters out task-irrelevant information in raw multimodal observations. We propose to minimize the upper bound of our multimodal information bottleneck objective for computationally tractable optimization. Experimental evaluations on several challenging locomotion tasks with egocentric images and proprioception show that our method achieves better sample efficiency and zero-shot robustness to unseen white noise than leading baselines. We also empirically demonstrate that leveraging information from egocentric images and proprioception is more helpful for learning policies on locomotion tasks than solely using one single modality.

arxiv情報

著者 Bang You,Huaping Liu
発行日 2024-10-23 04:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク