要約
単眼のRGBビデオから自由に動く物体を再構成するアプローチを提案します。
既存の方法のほとんどは、シーンが先、手のポーズが先、オブジェクト カテゴリのポーズが先と仮定するか、複数のシーケンス セグメントによる局所的な最適化に依存します。
我々は、移動するカメラの前にあるオブジェクトと事前依存せずに自由にインタラクションを可能にし、セグメントを持たずにシーケンスをグローバルに最適化する手法を提案します。
暗黙的なニューラル表現に基づいて、オブジェクトの形状とポーズを同時に段階的に最適化します。
私たちの方法の重要な側面は、最適化の検索スペースを大幅に削減する仮想カメラ システムです。
標準的な HO3D データセットと、ヘッドマウント デバイスでキャプチャされた自己中心的な RGB シーケンスのコレクションに基づいてメソッドを評価します。
私たちのアプローチはほとんどの方法を大幅に上回り、事前情報を前提とした最近の技術と同等であることを実証します。
要約(オリジナル)
We propose an approach for reconstructing free-moving object from a monocular RGB video. Most existing methods either assume scene prior, hand pose prior, object category pose prior, or rely on local optimization with multiple sequence segments. We propose a method that allows free interaction with the object in front of a moving camera without relying on any prior, and optimizes the sequence globally without any segments. We progressively optimize the object shape and pose simultaneously based on an implicit neural representation. A key aspect of our method is a virtual camera system that reduces the search space of the optimization significantly. We evaluate our method on the standard HO3D dataset and a collection of egocentric RGB sequences captured with a head-mounted device. We demonstrate that our approach outperforms most methods significantly, and is on par with recent techniques that assume prior information.
arxiv情報
著者 | Haixin Shi,Yinlin Hu,Daniel Koguciuk,Juan-Ting Lin,Mathieu Salzmann,David Ferstl |
発行日 | 2024-05-10 15:57:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google