要約
現実世界のジオメトリと 3D ビジョンのタスクには、扱いやすい分析表現を妨げる困難な対称性がたくさんあります。
この論文では、観測空間を汎用の潜在空間にマッピングすることを学習するオートエンコーダ フレームワークである Neural Isometries を紹介します。このフレームワークでは、対応する観測がワールド空間で幾何学的に関連している場合は常に、エンコーディングがアイソメトリによって関連付けられます。
具体的には、剛体変換がラプラシアンと交換するのと同じ方法で、エンコード間のマップが学習した内積を保存し、学習した関数演算子と交換するように潜在空間を正規化します。
このアプローチは、自己教師あり表現学習の効果的なバックボーンを形成し、事前学習された潜在空間で動作する単純な既製の等変ネットワークが、複雑なデータを処理するように設計された、綿密に設計された手作りのネットワークと同等の結果を達成できることを実証します。
、非線形対称。
さらに、等角マップはワールド空間のそれぞれの変換に関する情報をキャプチャし、これにより、シーンの隣接するビューのエンコード間のマップの係数からカメラのポーズを直接回帰できることを示します。
要約(オリジナル)
Real-world geometry and 3D vision tasks are replete with challenging symmetries that defy tractable analytical expression. In this paper, we introduce Neural Isometries, an autoencoder framework which learns to map the observation space to a general-purpose latent space wherein encodings are related by isometries whenever their corresponding observations are geometrically related in world space. Specifically, we regularize the latent space such that maps between encodings preserve a learned inner product and commute with a learned functional operator, in the same manner as rigid-body transformations commute with the Laplacian. This approach forms an effective backbone for self-supervised representation learning, and we demonstrate that a simple off-the-shelf equivariant network operating in the pre-trained latent space can achieve results on par with meticulously-engineered, handcrafted networks designed to handle complex, nonlinear symmetries. Furthermore, isometric maps capture information about the respective transformations in world space, and we show that this allows us to regress camera poses directly from the coefficients of the maps between encodings of adjacent views of a scene.
arxiv情報
著者 | Thomas W. Mitchel,Michael Taylor,Vincent Sitzmann |
発行日 | 2024-05-29 17:24:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google