要約
我々は、2つの属ゼロ形状間の写像を計算するための自動化技術を紹介する。注釈付きデータの欠如により、3次元意味的事前分布を直接推論することができない。その代わりに、現在の最先端の手法は、幾何学的特性を主に最適化するか、様々な量の手動注釈を必要とする。注釈付き学習データの欠如を克服するために、我々は事前に訓練された視覚モデルから意味的一致を抽出する。我々の手法は、複数の視点から3D形状のペアをレンダリングし、得られたレンダリングを、事前に訓練された視覚モデルを活用して特徴点を生成する既製の画像マッチング手法に供給する。これにより、3D形状に投影し直すことができる意味的な対応関係が得られ、異なる視点間で不正確で一貫性のない生のマッチングが生成されます。これらの対応関係は、出力マップの両対称性と連続性を促進する専用の最適化スキームによって、洗練され、表面間マップに抽出される。我々は、我々のアプローチが、手作業による注釈や3D学習データの必要性を排除し、意味的な表面間マップを生成できることを示す。さらに、オブジェクトが非アイソメトリックに関連するような、意味的に複雑性の高いシナリオや、ほぼアイソメトリックな状況においても有効であることを証明する。
要約(オリジナル)
We present an automated technique for computing a map between two genus-zero shapes, which matches semantically corresponding regions to one another. Lack of annotated data prohibits direct inference of 3D semantic priors; instead, current State-of-the-art methods predominantly optimize geometric properties or require varying amounts of manual annotation. To overcome the lack of annotated training data, we distill semantic matches from pre-trained vision models: our method renders the pair of 3D shapes from multiple viewpoints; the resulting renders are then fed into an off-the-shelf image-matching method which leverages a pretrained visual model to produce feature points. This yields semantic correspondences, which can be projected back to the 3D shapes, producing a raw matching that is inaccurate and inconsistent between different viewpoints. These correspondences are refined and distilled into an inter-surface map by a dedicated optimization scheme, which promotes bijectivity and continuity of the output map. We illustrate that our approach can generate semantic surface-to-surface maps, eliminating manual annotations or any 3D training data requirement. Furthermore, it proves effective in scenarios with high semantic complexity, where objects are non-isometrically related, as well as in situations where they are nearly isometric.
arxiv情報
著者 | Luca Morreale,Noam Aigerman,Vladimir G. Kim,Niloy J. Mitra |
発行日 | 2024-02-02 16:50:15+00:00 |
arxivサイト | arxiv_id(pdf) |