COPILOT: Human Collision Prediction and Localization from Multi-view Egocentric Videos

要約

安全な人間運動を実現するために、補助装着型外骨格は、自心円観察から衝突の可能性を予測できる知覚システムを備えている必要がある。しかし、これまでの外骨格の知覚に関するアプローチは、問題を特定のタイプの環境に大幅に単純化し、そのスケーラビリティを制限していた。本論文では、外骨格から撮影された多視点自心円映像から、多様な環境における人と風景の衝突を予測するという、挑戦的かつ新規な問題を提案する。どの身体関節が環境と衝突するかを分類し、環境中の潜在的な衝突を局所化する衝突領域ヒートマップを予測することにより、複雑な実世界のシーンに一般化し、下流の制御のための実用的出力を提供する外骨格知覚システムを開発することを目的とする。我々は、提案する空間-時間-視点合同注意操作により、多視点映像入力を活用し、衝突予測と定位を同時に行う映像変換器ベースのモデルであるCOPILOTを提案する。このモデルを学習・評価するために、フォトリアリスティックな3D環境内を移動する仮想的な人間をシミュレートする合成データ生成フレームワークを構築する。このフレームワークを用いて、8.6M egocentric RGBD framesからなるデータセットを確立し、この問題に対する将来の研究を可能にする。広範な実験により、我々のモデルは有望な性能を達成し、実世界と同様に未見のシーンにも一般化することが示唆される。COPILOTを下流の衝突回避タスクに適用し、単純な閉ループ制御アルゴリズムを用いて、未視聴シーンでの衝突事例を29%削減することに成功した。

要約(オリジナル)

To produce safe human motions, assistive wearable exoskeletons must be equipped with a perception system that enables anticipating potential collisions from egocentric observations. However, previous approaches to exoskeleton perception greatly simplify the problem to specific types of environments, limiting their scalability. In this paper, we propose the challenging and novel problem of predicting human-scene collisions for diverse environments from multi-view egocentric RGB videos captured from an exoskeleton. By classifying which body joints will collide with the environment and predicting a collision region heatmap that localizes potential collisions in the environment, we aim to develop an exoskeleton perception system that generalizes to complex real-world scenes and provides actionable outputs for downstream control. We propose COPILOT, a video transformer-based model that performs both collision prediction and localization simultaneously, leveraging multi-view video inputs via a proposed joint space-time-viewpoint attention operation. To train and evaluate the model, we build a synthetic data generation framework to simulate virtual humans moving in photo-realistic 3D environments. This framework is then used to establish a dataset consisting of 8.6M egocentric RGBD frames to enable future work on the problem. Extensive experiments suggest that our model achieves promising performance and generalizes to unseen scenes as well as real world. We apply COPILOT to a downstream collision avoidance task, and successfully reduce collision cases by 29% on unseen scenes using a simple closed-loop control algorithm.

arxiv情報

著者 Boxiao Pan,Bokui Shen,Davis Rempe,Despoina Paschalidou,Kaichun Mo,Yanchao Yang,Leonidas J. Guibas
発行日 2022-10-04 17:49:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク