Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction Clips

要約

私たちは、短いビデオ クリップから手とオブジェクトのインタラクションを再構築するという課題に取り組みます。
入力ビデオが与えられると、私たちのアプローチはビデオごとの最適化として 3D 推論を行い、オブジェクトの形状、時間とともに変化する動きや手の関節のニューラル 3D 表現を復元します。
入力ビデオは 3D 推論をガイドするためのマルチビュー キューを自然に提供しますが、オクルージョンや視点の変化が限られているため、これらだけでは不十分です。
正確な 3D を取得するために、再構成をガイドする汎用のデータ駆動型事前分布を使用してマルチビュー信号を強化します。
具体的には、拡散ネットワークを学習して、手動構成とカテゴリ ラベルに条件付けされたオブジェクトの (幾何学的) レンダリングの条件付き分布をモデル化し、それを再構成されたシーンの新しいビュー レンダリングをガイドするための事前分布として活用します。
私たちは、6 つのオブジェクト カテゴリにわたる自己中心的なビデオに対するアプローチを経験的に評価し、以前のシングルビューおよびマルチビューの方法と比較して大幅な改善を観察しました。
最後に、YouTube から任意のクリップを再構築するシステムの機能を実証し、一人称と三人称の両方のインタラクションを示します。

要約(オリジナル)

We tackle the task of reconstructing hand-object interactions from short video clips. Given an input video, our approach casts 3D inference as a per-video optimization and recovers a neural 3D representation of the object shape, as well as the time-varying motion and hand articulation. While the input video naturally provides some multi-view cues to guide 3D inference, these are insufficient on their own due to occlusions and limited viewpoint variations. To obtain accurate 3D, we augment the multi-view signals with generic data-driven priors to guide reconstruction. Specifically, we learn a diffusion network to model the conditional distribution of (geometric) renderings of objects conditioned on hand configuration and category label, and leverage it as a prior to guide the novel-view renderings of the reconstructed scene. We empirically evaluate our approach on egocentric videos across 6 object categories, and observe significant improvements over prior single-view and multi-view methods. Finally, we demonstrate our system’s ability to reconstruct arbitrary clips from YouTube, showing both 1st and 3rd person interactions.

arxiv情報

著者 Yufei Ye,Poorvi Hebbar,Abhinav Gupta,Shubham Tulsiani
発行日 2023-09-11 17:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク