要約
実世界での展開を強調しながら、目に見えない複雑な3D環境を計画およびナビゲートするために、具体化されたニューラルネットワークをトレーニングします。
計画担当者は、エージェントや環境に関する事前の知識を必要とするのではなく、状態遷移と報酬をモデル化することを学びます。
強化学習の潜在的に危険な試行錯誤を回避するために、安全な専門家のデモンストレーションからオフラインでトレーニングされるValue Iteration Networks(VIN)などの差別化可能なプランナーに焦点を当てています。
これらは小規模なシミュレーションではうまく機能しますが、展開を妨げる2つの主要な制限に対処します。
まず、現在の差別化可能なプランナーは、分岐の複雑さが高い環境で長期的な計画を立てるのに苦労していることを観察しました。
衝突を回避するために障害物に低い報酬を割り当てることを理想的に学ぶ必要がありますが、ネットワークに課せられた制約は、ネットワークが起こりうるすべての衝突に対して十分に大きなペナルティを学習することを保証するほど強力ではないと考えます。
したがって、値の反復に構造的な制約を課します。これにより、不可能なアクションをモデル化することを明示的に学習します。
次に、モデルを拡張して、移動と回転の下で制限された遠近法カメラで動作するようにします。これは、実際のロボットの展開に不可欠です。
多くのVINのようなプランナーは、回転なしで360度または俯瞰図を想定しています。
対照的に、私たちの方法は、メモリ効率の高い格子マップを使用して、部分的な観測のCNN埋め込みを集約し、3D状態空間グリッド(平行移動と回転)を使用して回転ダイナミクスを明示的にモデル化します。
私たちの提案は、いくつかの2Dおよび3D環境でのセマンティックナビゲーションと探索を大幅に改善し、このクラスのメソッドでは難しい設定に成功します。
私たちの知る限り、ロボットからキャプチャされた実際の画像で構成される、難しいActiveVisionデータセットで差別化可能な計画を成功裏に実行したのは私たちが初めてです。
要約(オリジナル)
We train embodied neural networks to plan and navigate unseen complex 3D environments, emphasising real-world deployment. Rather than requiring prior knowledge of the agent or environment, the planner learns to model the state transitions and rewards. To avoid the potentially hazardous trial-and-error of reinforcement learning, we focus on differentiable planners such as Value Iteration Networks (VIN), which are trained offline from safe expert demonstrations. Although they work well in small simulations, we address two major limitations that hinder their deployment. First, we observed that current differentiable planners struggle to plan long-term in environments with a high branching complexity. While they should ideally learn to assign low rewards to obstacles to avoid collisions, we posit that the constraints imposed on the network are not strong enough to guarantee the network to learn sufficiently large penalties for every possible collision. We thus impose a structural constraint on the value iteration, which explicitly learns to model any impossible actions. Secondly, we extend the model to work with a limited perspective camera under translation and rotation, which is crucial for real robot deployment. Many VIN-like planners assume a 360 degrees or overhead view without rotation. In contrast, our method uses a memory-efficient lattice map to aggregate CNN embeddings of partial observations, and models the rotational dynamics explicitly using a 3D state-space grid (translation and rotation). Our proposals significantly improve semantic navigation and exploration on several 2D and 3D environments, succeeding in settings that are otherwise challenging for this class of methods. As far as we know, we are the first to successfully perform differentiable planning on the difficult Active Vision Dataset, consisting of real images captured from a robot.
arxiv情報
著者 | Shu Ishida,João F. Henriques |
発行日 | 2022-06-02 15:22:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google