Matching Multiple Perspectives for Efficient Representation Learning

要約

表現学習アプローチは通常、アフィン変換を使用して変換された単一の視点からキャプチャされたオブジェクトの画像に依存しています。
さらに、表現学習の成功したパラダイムである自己教師あり学習は、異なる視点から見た同じオブジェクトの観測間のギャップを常に埋めることができるとは限らないインスタンス識別と自己拡張に依存しています。
複数の視点からオブジェクトを表示することは、オブジェクトの全体的な理解に役立ちます。これは、データの注釈が制限されている状況では特に重要です。
このホワイト ペーパーでは、自己教師あり学習とマルチ パースペクティブ マッチング手法を組み合わせたアプローチを提示し、埋め込みカメラを備えたロボット掃除機によってキャプチャされたデータのより高品質の表現を学習することの有効性を示します。
さまざまな自己教師あり事前トレーニング アルゴリズムと組み合わせた同じオブジェクトの複数のビューの可用性により、追加のラベルなしでオブジェクト分類のパフォーマンスが向上することを示します。

要約(オリジナル)

Representation learning approaches typically rely on images of objects captured from a single perspective that are transformed using affine transformations. Additionally, self-supervised learning, a successful paradigm of representation learning, relies on instance discrimination and self-augmentations which cannot always bridge the gap between observations of the same object viewed from a different perspective. Viewing an object from multiple perspectives aids holistic understanding of an object which is particularly important in situations where data annotations are limited. In this paper, we present an approach that combines self-supervised learning with a multi-perspective matching technique and demonstrate its effectiveness on learning higher quality representations on data captured by a robotic vacuum with an embedded camera. We show that the availability of multiple views of the same object combined with a variety of self-supervised pretraining algorithms can lead to improved object classification performance without extra labels.

arxiv情報

著者 Omiros Pantazis,Mathew Salvaris
発行日 2022-08-16 10:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク