MVSA-Net: Multi-View State-Action Recognition for Robust and Deployable Trajectory Generation

要約

観察から学習 (LfO) パラダイムは、ロボットがタスクの実行を観察するだけでタスクの実行方法を学習する、人間からインスピレーションを得たモードです。
LfO は中断を最小限に抑え、面倒なプログラミングを軽減することで、工場現場でのロボットの統合を促進します。
LfO パイプラインの重要なコンポーネントは、深度カメラ フレームを対応するタスクの状態とアクションのペアに変換することであり、これらはタスク パラメーターを理解するための模倣学習や逆強化学習などの学習手法に中継されます。
いくつかの既存のコンピューター ビジョン モデルはアクティビティ認識のためにビデオを分析しますが、SA-Net は特に RGB-D データからのロボット LfO をターゲットとしています。
しかし、SA-Net や他の多くのモデルは、単一の視点からキャプチャされたフレーム データを分析します。
したがって、彼らの分析は、デプロイメントで頻繁に発生する、観察されたタスクのオクルージョンに対して非常に敏感です。
オクルージョンを軽減する明らかな方法は、複数の視点からタスクを同時に観察し、モデル内の複数のストリームを同期的に融合することです。
これに向けて、SA-Net モデルを一般化して、タスク アクティビティの複数の視点を認識し、それらを統合し、各フレームの状態とアクションをよりよく認識できるようにするマルチビュー SA-Net を紹介します。
2 つの異なるドメインでのパフォーマンス評価により、MVSA-Net はシングルビュー MVSA-Net や他のベースラインと比較して、オクルージョン下の状態とアクションのペアをより正確に認識することが確立されています。
当社のアブレーション研究では、さまざまな周囲条件下でのパフォーマンスをさらに評価し、アーキテクチャ コンポーネントの寄与を確立します。
そのため、MVSA-Net は、以前の方法と比較して、はるかに堅牢で展開可能な状態アクション軌道生成を提供します。

要約(オリジナル)

The learn-from-observation (LfO) paradigm is a human-inspired mode for a robot to learn to perform a task simply by watching it being performed. LfO can facilitate robot integration on factory floors by minimizing disruption and reducing tedious programming. A key component of the LfO pipeline is a transformation of the depth camera frames to the corresponding task state and action pairs, which are then relayed to learning techniques such as imitation or inverse reinforcement learning for understanding the task parameters. While several existing computer vision models analyze videos for activity recognition, SA-Net specifically targets robotic LfO from RGB-D data. However, SA-Net and many other models analyze frame data captured from a single viewpoint. Their analysis is therefore highly sensitive to occlusions of the observed task, which are frequent in deployments. An obvious way of reducing occlusions is to simultaneously observe the task from multiple viewpoints and synchronously fuse the multiple streams in the model. Toward this, we present multi-view SA-Net, which generalizes the SA-Net model to allow the perception of multiple viewpoints of the task activity, integrate them, and better recognize the state and action in each frame. Performance evaluations on two distinct domains establish that MVSA-Net recognizes the state-action pairs under occlusion more accurately compared to single-view MVSA-Net and other baselines. Our ablation studies further evaluate its performance under different ambient conditions and establish the contribution of the architecture components. As such, MVSA-Net offers a significantly more robust and deployable state-action trajectory generation compared to previous methods.

arxiv情報

著者 Ehsan Asali,Prashant Doshi,Jin Sun
発行日 2024-04-08 02:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク