Differentiable-Optimization Based Neural Policy for Occlusion-Aware Target Tracking

要約

乱雑で動的な環境でターゲットを追跡するのは困難ですが、航空映画撮影などのアプリケーションでは中心的なコンポーネントを形成します。
環境内の障害物は衝突の危険を引き起こすだけでなく、ロボットの視野からターゲットを遮る可能性もあります。
さらに、目標とする将来の軌道は不明であり、現在の状態のみを推定できる場合もあります。
この論文では、安全でオクルージョンのないターゲット追跡のための学習された確率的ニューラル ポリシーを提案します。
私たちの研究の中核となる新しさは、条件付き変分オートエンコーダー (CVAE) に基づく生成モデリングと微分可能な最適化レイヤーを組み合わせたポリシー ネットワークの構造に由来しています。
CVAE の役割は、基本軌道分布を提供し、その後、最適化層を通じて学習された実行可能セットに投影することです。
さらに、CVAE ネットワークの重みと微分可能な最適化のパラメーターの両方を、デモンストレーションの軌跡を通じてエンドツーエンドの方法で学習できます。
私たちは次の点で最先端 (SOTA) を改善します。
学習したポリシーが、オクルージョン/衝突回避機能と計算時間の点で既存の SOTA よりも優れていることを示します。
次に、学習パイプラインのさまざまなコンポーネントが全体的な追跡タスクにどのように寄与するかを示す広範なアブレーションを示します。
また、NVIDIA Jetson TX2 などのリソースに制約のあるハードウェア上でのアプローチのリアルタイム パフォーマンスも実証します。
最後に、私たちが学習したポリシーは、非常に乱雑な環境でのナビゲーションのための反応的なプランナーとして見ることもできます。

要約(オリジナル)

Tracking a target in cluttered and dynamic environments is challenging but forms a core component in applications like aerial cinematography. The obstacles in the environment not only pose collision risk but can also occlude the target from the field-of-view of the robot. Moreover, the target future trajectory may be unknown and only its current state can be estimated. In this paper, we propose a learned probabilistic neural policy for safe, occlusion-free target tracking. The core novelty of our work stems from the structure of our policy network that combines generative modeling based on Conditional Variational Autoencoder (CVAE) with differentiable optimization layers. The role of the CVAE is to provide a base trajectory distribution which is then projected onto a learned feasible set through the optimization layer. Furthermore, both the weights of the CVAE network and the parameters of the differentiable optimization can be learned in an end-to-end fashion through demonstration trajectories. We improve the state-of-the-art (SOTA) in the following respects. We show that our learned policy outperforms existing SOTA in terms of occlusion/collision avoidance capabilities and computation time. Second, we present an extensive ablation showing how different components of our learning pipeline contribute to the overall tracking task. We also demonstrate the real-time performance of our approach on resource-constrained hardware such as NVIDIA Jetson TX2. Finally, our learned policy can also be viewed as a reactive planner for navigation in highly cluttered environments.

arxiv情報

著者 Houman Masnavi,Arun Kumar Singh,Farrokh Janabi-Sharifi
発行日 2024-06-20 18:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク