要約
人間は新しい物体を再構成するのが得意です。つまり、一般的な構造から細部に至るまで未知の物体間の共通点を特定することができ、この能力は機械では再現することが困難です。
我々は、3D 監視を使用するモデルをトレーニングすることなく、2D ビューから直接 3D 超二次関数を意味部分として使用してオブジェクトを再構成するフレームワーク ISCO を提案します。
これを達成するために、レンダリングされた 3D ビューと 2D 画像のシルエットを比較して、オブジェクトの特定のインスタンスを構成する超二次パラメーターを最適化します。
私たちの ISCO フレームワークは、再構成誤差が大きい場合には常に新しい超二次関数を繰り返し追加し、ターゲット オブジェクトの最初に粗い領域を抽象化し、次により詳細な部分を抽象化します。
この単純な粗いものから細かいものへの誘導バイアスにより、ISCO は意味論的な監視がないにもかかわらず、関連するオブジェクト部分に一貫した超 2 次関数を提供します。
ISCO はニューラル ネットワークをトレーニングしないため、配布範囲外のオブジェクトに対しても本質的に堅牢です。
実験によれば、最近の単一インスタンスの超二次再構成アプローチと比較して、ISCO は、実際の画像からであっても、一貫してより正確な 3D 再構成を提供します。
コードは https://github.com/ExplainableML/ISCO で入手できます。
要約(オリジナル)
Humans are good at recomposing novel objects, i.e. they can identify commonalities between unknown objects from general structure to finer detail, an ability difficult to replicate by machines. We propose a framework, ISCO, to recompose an object using 3D superquadrics as semantic parts directly from 2D views without training a model that uses 3D supervision. To achieve this, we optimize the superquadric parameters that compose a specific instance of the object, comparing its rendered 3D view and 2D image silhouette. Our ISCO framework iteratively adds new superquadrics wherever the reconstruction error is high, abstracting first coarse regions and then finer details of the target object. With this simple coarse-to-fine inductive bias, ISCO provides consistent superquadrics for related object parts, despite not having any semantic supervision. Since ISCO does not train any neural network, it is also inherently robust to out-of-distribution objects. Experiments show that, compared to recent single instance superquadrics reconstruction approaches, ISCO provides consistently more accurate 3D reconstructions, even from images in the wild. Code available at https://github.com/ExplainableML/ISCO .
arxiv情報
著者 | Stephan Alaniz,Massimiliano Mancini,Zeynep Akata |
発行日 | 2023-09-05 10:21:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google