Learning Viewpoint-Agnostic Visual Representations by Recovering Tokens in 3D Space

要約

人間は、3D構造の知覚をサポートする視覚野による視点の変化を非常に柔軟に理解できます。
対照的に、2D画像のプールから視覚表現を学習するコンピュータービジョンモデルのほとんどは、新しいカメラの視点を一般化できないことがよくあります。
最近、ビジョンアーキテクチャは、畳み込みのないアーキテクチャであるビジュアルトランスフォーマーに移行しました。ビジュアルトランスフォーマーは、画像パッチから派生したトークンで動作します。
ただし、これらのトランスフォーマーも2D畳み込みネットワークも、視覚的な理解のために視点にとらわれない表現を学習するための明示的な操作を実行しません。
この目的のために、視覚的トークンの3D位置情報を推定し、視点に依存しない表現を学習するためにそれを活用する3Dトークン表現レイヤー(3DTRL)を提案します。
3DTRLの重要な要素には、トークンに幾何学的変換を課すための疑似深度推定器と学習済みカメラマトリックスが含まれます。
これらにより、3DTRLは2Dパッチからトークンの3D位置情報を回復できます。
実際には、3DTRLは簡単にTransformerに接続できます。
私たちの実験は、画像分類、マルチビュービデオアライメント、アクション認識など、多くの視覚タスクにおける3DTRLの有効性を示しています。
3DTRLを備えたモデルは、最小限の追加計算で、すべてのタスクでバックボーントランスフォーマーよりも優れています。
私たちのプロジェクトページはhttps://www3.cs.stonybrook.edu/~jishang/3dtrl/3dtrl.htmlにあります

要約(オリジナル)

Humans are remarkably flexible in understanding viewpoint changes due to visual cortex supporting the perception of 3D structure. In contrast, most of the computer vision models that learn visual representation from a pool of 2D images often fail to generalize over novel camera viewpoints. Recently, the vision architectures have shifted towards convolution-free architectures, visual Transformers, which operate on tokens derived from image patches. However, neither these Transformers nor 2D convolutional networks perform explicit operations to learn viewpoint-agnostic representation for visual understanding. To this end, we propose a 3D Token Representation Layer (3DTRL) that estimates the 3D positional information of the visual tokens and leverages it for learning viewpoint-agnostic representations. The key elements of 3DTRL include a pseudo-depth estimator and a learned camera matrix to impose geometric transformations on the tokens. These enable 3DTRL to recover the 3D positional information of the tokens from 2D patches. In practice, 3DTRL is easily plugged-in into a Transformer. Our experiments demonstrate the effectiveness of 3DTRL in many vision tasks including image classification, multi-view video alignment, and action recognition. The models with 3DTRL outperform their backbone Transformers in all the tasks with minimal added computation. Our project page is at https://www3.cs.stonybrook.edu/~jishang/3dtrl/3dtrl.html

arxiv情報

著者 Jinghuan Shang,Srijan Das,Michael S. Ryoo
発行日 2022-06-23 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク