EgoGen: An Egocentric Synthetic Data Generator

要約

一人称視点で世界を理解することは、拡張現実 (AR) の基本です。
この没入型の視点は、三人称視点と比較して劇的な視覚的な変化と独特の課題をもたらします。
合成データは三人称視点の視覚モデルを強化しましたが、具体化された自己中心的な認識タスクへのその応用は、ほとんど解明されていないままです。
重要な課題は、人間の自然な動きや行動をシミュレートし、実体化されたカメラを効果的に操作して、3D 世界の忠実な自己中心的な表現をキャプチャすることにあります。
この課題に対処するために、自己中心的な認識タスク用の正確かつ豊富なグラウンドトゥルース トレーニング データを生成できる新しい合成データ ジェネレーターである EgoGen を紹介します。
EgoGen の中心となるのは、仮想人間の自己中心的な視覚入力を直接活用して 3D 環境を感知する、新しい人間動作合成モデルです。
衝突を回避するモーション プリミティブと 2 段階の強化学習アプローチを組み合わせることで、当社のモーション合成モデルは、仮想人間の具体化された知覚と動きがシームレスに結合される閉ループ ソリューションを提供します。
以前の作品と比較して、私たちのモデルは事前定義されたグローバル パスの必要性を排除し、動的な環境に直接適用できます。
使いやすくスケーラブルなデータ生成パイプラインと組み合わせることで、ヘッドマウント カメラのマッピングと位置特定、自己中心的なカメラ追跡、自己中心的なビューからのヒューマン メッシュの回復という 3 つのタスクで EgoGen の有効性を実証します。
EgoGen は完全にオープンソース化され、現実的な自己中心的なトレーニング データを作成するための実用的なソリューションを提供し、自己中心的なコンピュータ ビジョン研究に役立つツールとして機能することを目指しています。
プロジェクトページを参照してください: https://ego-gen.github.io/。

要約(オリジナル)

Understanding the world in first-person view is fundamental in Augmented Reality (AR). This immersive perspective brings dramatic visual changes and unique challenges compared to third-person views. Synthetic data has empowered third-person-view vision models, but its application to embodied egocentric perception tasks remains largely unexplored. A critical challenge lies in simulating natural human movements and behaviors that effectively steer the embodied cameras to capture a faithful egocentric representation of the 3D world. To address this challenge, we introduce EgoGen, a new synthetic data generator that can produce accurate and rich ground-truth training data for egocentric perception tasks. At the heart of EgoGen is a novel human motion synthesis model that directly leverages egocentric visual inputs of a virtual human to sense the 3D environment. Combined with collision-avoiding motion primitives and a two-stage reinforcement learning approach, our motion synthesis model offers a closed-loop solution where the embodied perception and movement of the virtual human are seamlessly coupled. Compared to previous works, our model eliminates the need for a pre-defined global path, and is directly applicable to dynamic environments. Combined with our easy-to-use and scalable data generation pipeline, we demonstrate EgoGen’s efficacy in three tasks: mapping and localization for head-mounted cameras, egocentric camera tracking, and human mesh recovery from egocentric views. EgoGen will be fully open-sourced, offering a practical solution for creating realistic egocentric training data and aiming to serve as a useful tool for egocentric computer vision research. Refer to our project page: https://ego-gen.github.io/.

arxiv情報

著者 Gen Li,Kaifeng Zhao,Siwei Zhang,Xiaozhong Lyu,Mihai Dusmanu,Yan Zhang,Marc Pollefeys,Siyu Tang
発行日 2024-04-11 16:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク