要約
総合的な 3D ヒューマンシーンの再構成は、ロボットの認識において重要かつ新たな研究領域です。
全体的な 3D 人物シーンの再構成における重要な課題は、単一の単眼 RGB 画像から物理的に妥当な 3D シーンを生成することです。
既存の研究では主に、明示的に定義された物理法則と、さまざまなシーン要素 (人間とオブジェクト) 間の制約を使用して、一連の RGB フレームからシーンを再構成する最適化ベースのアプローチが提案されています。
ただし、すべてのシナリオですべての物理法則を明示的に定義してモデル化することは困難です。
この論文では、シーン要素の暗黙的な特徴表現を使用して、人間と物体の物理的に妥当な配置とありえない配置を区別することを提案します。
私たちは、シーン内の人間と物体および物体と物体の相互作用を分析するために、シーンのエンコードされた物理的表現を備えたグラフベースの全体的表現を使用することを提案します。
このグラフィック表現を使用して、モデルを敵対的にトレーニングし、シーン要素間の法則や制約を明示的に定義することなく、トレーニング データ自体からシーン要素の実現可能な位置合わせを学習します。
既存の推論時間最適化ベースのアプローチとは異なり、この敵対的にトレーニングされたモデルを使用して、物理法則と制約に従うシーンのフレームごとの 3D 再構成を生成します。
私たちの学習ベースの手法は、既存の最適化ベースの全体的な人物シーンの再構成手法と同等の 3D 再構成品質を実現し、推論時間の最適化を必要としません。
このため、既存の方法と比較して、ロボット ナビゲーションなどのロボット アプリケーションでの使用の可能性により適しています。
要約(オリジナル)
Holistic 3D human-scene reconstruction is a crucial and emerging research area in robot perception. A key challenge in holistic 3D human-scene reconstruction is to generate a physically plausible 3D scene from a single monocular RGB image. The existing research mainly proposes optimization-based approaches for reconstructing the scene from a sequence of RGB frames with explicitly defined physical laws and constraints between different scene elements (humans and objects). However, it is hard to explicitly define and model every physical law in every scenario. This paper proposes using an implicit feature representation of the scene elements to distinguish a physically plausible alignment of humans and objects from an implausible one. We propose using a graph-based holistic representation with an encoded physical representation of the scene to analyze the human-object and object-object interactions within the scene. Using this graphical representation, we adversarially train our model to learn the feasible alignments of the scene elements from the training data itself without explicitly defining the laws and constraints between them. Unlike the existing inference-time optimization-based approaches, we use this adversarially trained model to produce a per-frame 3D reconstruction of the scene that abides by the physical laws and constraints. Our learning-based method achieves comparable 3D reconstruction quality to existing optimization-based holistic human-scene reconstruction methods and does not need inference time optimization. This makes it better suited when compared to existing methods, for potential use in robotic applications, such as robot navigation, etc.
arxiv情報
著者 | Sandika Biswas,Kejie Li,Biplab Banerjee,Subhasis Chaudhuri,Hamid Rezatofighi |
発行日 | 2023-07-27 01:07:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google