On the Efficacy of 3D Point Cloud Reinforcement Learning

要約

視覚強化学習 (ビジュアル RL) に関する最近の研究では、3D 視覚表現の使用が検討されています。
しかし、これらの研究はいずれも、さまざまなタスクにわたって 3D 表現の有効性を 2D 表現と系統的に比較したり、エージェントとオブジェクト/オブジェクトとオブジェクトの関係推論の観点から 3D 表現を分析したりしていません。
この研究では、3D ネイティブ空間の特徴を学習する 3D ニューラル ネットワークが視覚的 RL に有益な誘導バイアスをいつ、どのように提供するのかという疑問に対する答えを求めます。
私たちは、3D 表現の最も一般的な形式の 1 つである 3D 点群に特に焦点を当てています。
私たちは 3D 点群 RL の設計選択を系統的に調査し、さまざまなロボット操作および制御タスクのための堅牢なアルゴリズムの開発につながります。
さらに、最小限の合成タスクと複雑なロボット操作タスクの両方で 2D 画像と 3D 点群 RL 手法を比較すると、エージェント – オブジェクト / オブジェクト – オブジェクト関係のエンコードが重要な場合、3D 点群 RL が 2D 点群 RL よりも大幅に優れていることがわかります。
要素。

要約(オリジナル)

Recent studies on visual reinforcement learning (visual RL) have explored the use of 3D visual representations. However, none of these work has systematically compared the efficacy of 3D representations with 2D representations across different tasks, nor have they analyzed 3D representations from the perspective of agent-object / object-object relationship reasoning. In this work, we seek answers to the question of when and how do 3D neural networks that learn features in the 3D-native space provide a beneficial inductive bias for visual RL. We specifically focus on 3D point clouds, one of the most common forms of 3D representations. We systematically investigate design choices for 3D point cloud RL, leading to the development of a robust algorithm for various robotic manipulation and control tasks. Furthermore, through comparisons between 2D image vs 3D point cloud RL methods on both minimalist synthetic tasks and complex robotic manipulation tasks, we find that 3D point cloud RL can significantly outperform the 2D counterpart when agent-object / object-object relationship encoding is a key factor.

arxiv情報

著者 Zhan Ling,Yunchao Yao,Xuanlin Li,Hao Su
発行日 2023-06-11 22:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク