Enhancing 2D Representation Learning with a 3D Prior

要約

視覚データの堅牢かつ効果的な表現を学習することは、コンピューター ビジョンの基本的なタスクです。
従来、これは、取得にコストがかかるラベル付きデータを使用してモデルをトレーニングすることによって実現されていました。
自己教師あり学習では、ラベルなしの生の視覚データのみから表現を学習することで、ラベル付きデータの要件を回避しようとします。
しかし、人間が両眼視や動作を通じて豊富な 3D 情報を取得するのとは異なり、現在の自己教師あり手法の大部分は、単眼の 2D 画像コレクションから学習することを使命としています。
形状中心の視覚処理は、テクスチャに偏った自動化手法と比較してより堅牢であることが実証されているため、これは注目に値します。
これに触発されて、私たちは、トレーニング中に強力な 3D 構造事前分布をモデルに直接明示的に強制することで、既存の自己教師あり手法を強化するための新しいアプローチを提案します。
さまざまなデータセットにわたる実験を通じて、従来の自己教師ありベースラインと比較して、3D 認識表現がより堅牢であることを実証しました。

要約(オリジナル)

Learning robust and effective representations of visual data is a fundamental task in computer vision. Traditionally, this is achieved by training models with labeled data which can be expensive to obtain. Self-supervised learning attempts to circumvent the requirement for labeled data by learning representations from raw unlabeled visual data alone. However, unlike humans who obtain rich 3D information from their binocular vision and through motion, the majority of current self-supervised methods are tasked with learning from monocular 2D image collections. This is noteworthy as it has been demonstrated that shape-centric visual processing is more robust compared to texture-biased automated methods. Inspired by this, we propose a new approach for strengthening existing self-supervised methods by explicitly enforcing a strong 3D structural prior directly into the model during training. Through experiments, across a range of datasets, we demonstrate that our 3D aware representations are more robust compared to conventional self-supervised baselines.

arxiv情報

著者 Mehmet Aygün,Prithviraj Dhar,Zhicheng Yan,Oisin Mac Aodha,Rakesh Ranjan
発行日 2024-06-04 17:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク