Self-supervised visual learning from interactions with objects

要約

自己教師あり学習 (SSL) は視覚表現学習に革命をもたらしましたが、人間の視覚の堅牢性は達成されていません。
この理由としては、SSL が学習中に人間が利用できるすべてのデータを活用していないことが考えられます。
人間は、物体について学習する際、意図的に物体の周りを回転したり移動したりすることが多く、研究によると、これらの相互作用により学習が大幅に向上することがわかっています。
ここでは、そのようなオブジェクト関連のアクションが SSL を強化できるかどうかを調べます。
このために、オブジェクトの 1 つの自己中心的なビューから別の自己中心的なビューに変更するために実行されたアクションを 4 つのビデオ データセットで抽出します。
次に、実行されたアクションを同じクリップから抽出された 2 つの画像の表現と位置合わせすることで、視覚的およびアクションの埋め込みを学習するための新しい損失関数を導入します。
これにより、実行されたアクションが潜在的な視覚的表現を構造化できるようになります。
私たちの実験は、私たちの方法が下流のカテゴリ認識において以前の方法よりも一貫して優れていることを示しています。
私たちの分析では、観察された改善は、同じカテゴリのさまざまなオブジェクトの視点に沿った調整の改善に関連していることがわかりました。
全体として、私たちの研究は、オブジェクトとの具体化されたインタラクションがオブジェクト カテゴリの SSL を改善できることを示しています。

要約(オリジナル)

Self-supervised learning (SSL) has revolutionized visual representation learning, but has not achieved the robustness of human vision. A reason for this could be that SSL does not leverage all the data available to humans during learning. When learning about an object, humans often purposefully turn or move around objects and research suggests that these interactions can substantially enhance their learning. Here we explore whether such object-related actions can boost SSL. For this, we extract the actions performed to change from one ego-centric view of an object to another in four video datasets. We then introduce a new loss function to learn visual and action embeddings by aligning the performed action with the representations of two images extracted from the same clip. This permits the performed actions to structure the latent visual representation. Our experiments show that our method consistently outperforms previous methods on downstream category recognition. In our analysis, we find that the observed improvement is associated with a better viewpoint-wise alignment of different objects from the same category. Overall, our work demonstrates that embodied interactions with objects can improve SSL of object categories.

arxiv情報

著者 Arthur Aubret,Céline Teulière,Jochen Triesch
発行日 2024-08-08 09:41:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク