要約
近年、多くのビデオ タスクは、ビジョン トランスフォーマーを利用し、特徴抽出のための時空間分離を確立することによってブレークスルーを達成しました。
マルチビュー 3D 再構成も入力として複数の画像に直面しますが、順序付けられていないビュー間の関連付けが完全に曖昧であるため、成功をすぐに継承することはできません。
ビデオにおける時間的コヒーレンス特性に似た、使用可能な事前関係はありません。
この問題を解決するために、Unordered Multiple Images (UMIFormer) 用の新しい変換ネットワークを提案します。
これは、分離されたビュー内エンコーディング用のトランスフォーマー ブロックと、異なるビューからの類似トークン間の相関をマイニングして分離されたビュー間エンコーディングを実現するトークン整流用の設計されたブロックを利用します。
その後、さまざまなブランチから取得されたすべてのトークンは、固定サイズのコンパクトな表現に圧縮されますが、トークン間の類似性を活用することにより、再構築のための豊富な情報が保持されます。
ShapeNet で経験的にデモンストレーションを行い、分離された学習方法が順序付けられていない複数の画像に適応できることを確認します。
一方、実験では、モデルが既存の SOTA メソッドよりも大幅に優れていることも確認されています。
要約(オリジナル)
In recent years, many video tasks have achieved breakthroughs by utilizing the vision transformer and establishing spatial-temporal decoupling for feature extraction. Although multi-view 3D reconstruction also faces multiple images as input, it cannot immediately inherit their success due to completely ambiguous associations between unordered views. There is not usable prior relationship, which is similar to the temporally-coherence property in a video. To solve this problem, we propose a novel transformer network for Unordered Multiple Images (UMIFormer). It exploits transformer blocks for decoupled intra-view encoding and designed blocks for token rectification that mine the correlation between similar tokens from different views to achieve decoupled inter-view encoding. Afterward, all tokens acquired from various branches are compressed into a fixed-size compact representation while preserving rich information for reconstruction by leveraging the similarities between tokens. We empirically demonstrate on ShapeNet and confirm that our decoupled learning method is adaptable for unordered multiple images. Meanwhile, the experiments also verify our model outperforms existing SOTA methods by a large margin.
arxiv情報
著者 | Zhenwei Zhu,Liying Yang,Ning Li,Chaohao Jiang,Yanyan Liang |
発行日 | 2023-02-27 17:27:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google