Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from Sparse Image Ensemble

要約

まばらな野生の画像アンサンブルから 3D スケルトン、形状、カメラの視点、パーツの関節を自動的に推定することは、非常に制約が少なく、挑戦的な問題です。
従来の方法のほとんどは、大規模な画像データセット、高密度の時間的対応、またはカメラ ポーズ、2D キーポイント、形状テンプレートなどの人間による注釈に依存しています。
私たちは Hi-LASSIE を提案します。これは、ユーザー定義の形状やスケルトン テンプレートを使用せずに、野生のわずか 20 ~ 30 のオンライン画像から 3D 多関節再構成を実行します。
同様の問題設定に取り組み、2 つの重要な進歩を遂げた LASSIE の最近の研究をたどります。
まず、手動で注釈を付けた 3D スケルトンに頼る代わりに、選択した参照画像からクラス固有のスケルトンを自動的に推定します。
次に、すべての画像で学習したクラス固有の事前確率を維持しながら、再構成を各インスタンスに忠実に適合させる、新しいインスタンス固有の最適化戦略を使用して形状再構成を改善します。
野生の画像アンサンブルに関する実験では、Hi-LASSIE は最小限のユーザー入力しか必要としないにもかかわらず、より高品質の最先端の 3D 再構成が得られることが示されています。

要約(オリジナル)

Automatically estimating 3D skeleton, shape, camera viewpoints, and part articulation from sparse in-the-wild image ensembles is a severely under-constrained and challenging problem. Most prior methods rely on large-scale image datasets, dense temporal correspondence, or human annotations like camera pose, 2D keypoints, and shape templates. We propose Hi-LASSIE, which performs 3D articulated reconstruction from only 20-30 online images in the wild without any user-defined shape or skeleton templates. We follow the recent work of LASSIE that tackles a similar problem setting and make two significant advances. First, instead of relying on a manually annotated 3D skeleton, we automatically estimate a class-specific skeleton from the selected reference image. Second, we improve the shape reconstructions with novel instance-specific optimization strategies that allow reconstructions to faithful fit on each instance while preserving the class-specific priors learned across all images. Experiments on in-the-wild image ensembles show that Hi-LASSIE obtains higher quality state-of-the-art 3D reconstructions despite requiring minimum user input.

arxiv情報

著者 Chun-Han Yao,Wei-Chih Hung,Yuanzhen Li,Michael Rubinstein,Ming-Hsuan Yang,Varun Jampani
発行日 2022-12-21 14:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク