Multi-view Disentanglement for Reinforcement Learning with Multiple Cameras

要約

画像ベースの強化学習 (RL) エージェントのパフォーマンスは、画像のキャプチャに使用されるカメラの位置によって異なります。
一人称自己中心カメラを含む複数のカメラで同時にトレーニングすると、さまざまなカメラの視点からの情報を活用して RL のパフォーマンスを向上させることができます。
ただし、ハードウェアの制約により、実際の展開では複数のカメラの利用が制限される場合があります。
さらに、現実世界ではカメラが損傷し、トレーニング中に使用されたすべてのカメラにアクセスできなくなる可能性があります。
これらのハードウェアの制約を克服するために、複数のカメラを使用して、トレーニング セットから任意の 1 台のカメラに一般化する、カメラの数の減少に対して堅牢なポリシーを学習するマルチビュー ディエンタングルメント (MVD) を提案します。
私たちのアプローチは、単一のカメラへの一般化を可能にするためにすべてのカメラにわたって調整された共有表現と、カメラ固有のプライベート表現を使用して、複数のカメラからのもつれの解けた表現を学習する RL の自己監視型補助タスクです。
我々は、単一の三人称カメラで訓練された RL エージェントが多くの制御タスクにおいて最適なポリシーを学習できないことを実験的に示します。
しかし、私たちのアプローチでは、トレーニング中に複数のカメラの恩恵を受けるため、同じ 1 台の三人称カメラのみを使用してタスクを解決できます。

要約(オリジナル)

The performance of image-based Reinforcement Learning (RL) agents can vary depending on the position of the camera used to capture the images. Training on multiple cameras simultaneously, including a first-person egocentric camera, can leverage information from different camera perspectives to improve the performance of RL. However, hardware constraints may limit the availability of multiple cameras in real-world deployment. Additionally, cameras may become damaged in the real-world preventing access to all cameras that were used during training. To overcome these hardware constraints, we propose Multi-View Disentanglement (MVD), which uses multiple cameras to learn a policy that is robust to a reduction in the number of cameras to generalise to any single camera from the training set. Our approach is a self-supervised auxiliary task for RL that learns a disentangled representation from multiple cameras, with a shared representation that is aligned across all cameras to allow generalisation to a single camera, and a private representation that is camera-specific. We show experimentally that an RL agent trained on a single third-person camera is unable to learn an optimal policy in many control tasks; but, our approach, benefiting from multiple cameras during training, is able to solve the task using only the same single third-person camera.

arxiv情報

著者 Mhairi Dunion,Stefano V. Albrecht
発行日 2024-06-21 14:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク