Panoramic Vision Transformer for Saliency Detection in 360° Videos

要約

360$^\circ$ ビデオの顕著性の検出は、360$^\circ$ ビデオを理解するための挑戦的なベンチマークの 1 つです。
全方向性球体における価値のある視点は、本質的にあいまいです。
Panoramic Vision Transformer (PAVER) という名前の新しいフレームワークを紹介します。
変形可能な畳み込みを備えた Vision Transformer を使用してエンコーダーを設計します。これにより、追加のモジュールや微調整なしで、通常のビデオから事前トレーニングされたモデルをアーキテクチャにプラグインできるだけでなく、以前の深い CNN ベースのアプローチとは異なり、幾何学的近似を 1 回だけ実行することもできます。
強力なエンコーダーのおかげで、PAVER は、ローカル パッチ機能間の 3 つの単純な相対的関係から顕著性を学習でき、監視やクラス アクティベーションなどの補助情報なしで、Wild360 ベンチマークの最先端モデルを大幅に上回ります。
VQA-ODV の全方向ビデオ品質評価タスクを使用して、顕著性予測モデルの有用性を実証します。このタスクでは、頭の動きを含む監視なしで一貫してパフォーマンスを向上させます。

要約(オリジナル)

360$^\circ$ video saliency detection is one of the challenging benchmarks for 360$^\circ$ video understanding since non-negligible distortion and discontinuity occur in the projection of any format of 360$^\circ$ videos, and capture-worthy viewpoint in the omnidirectional sphere is ambiguous by nature. We present a new framework named Panoramic Vision Transformer (PAVER). We design the encoder using Vision Transformer with deformable convolution, which enables us not only to plug pretrained models from normal videos into our architecture without additional modules or finetuning but also to perform geometric approximation only once, unlike previous deep CNN-based approaches. Thanks to its powerful encoder, PAVER can learn the saliency from three simple relative relations among local patch features, outperforming state-of-the-art models for the Wild360 benchmark by large margins without supervision or auxiliary information like class activation. We demonstrate the utility of our saliency prediction model with the omnidirectional video quality assessment task in VQA-ODV, where we consistently improve performance without any form of supervision, including head movement.

arxiv情報

著者 Heeseung Yun,Sehun Lee,Gunhee Kim
発行日 2022-09-19 12:23:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク