ViDaS Video Depth-aware Saliency Network

要約

我々は、ビデオの顕著性予測を介して「実際の」注意モデリングの問題に対処するために、2 ストリームの完全畳み込みビデオ深度認識顕著性ネットワークである ViDaS を導入します。
入力として RGB フレームのみを使用する既存の視覚的顕著性アプローチとは対照的に、私たちのネットワークは追加のモダリティとして深度も使用します。
ネットワークは 2 つのビジュアル ストリームで構成され、1 つは RGB フレーム用、もう 1 つは深度フレーム用です。
どちらのストリームもエンコーダ/デコーダのアプローチに従い、最終的な顕著性マップを取得するために融合されます。
このネットワークはエンドツーエンドでトレーニングされ、幅広いビデオ コンテンツを含む視線追跡データを使用してさまざまなデータベースで評価されます。
公開されているデータセットには深度が含まれていませんが、比較とより深い洞察を可能にするために、3 つの異なる最先端の方法を使用して深度を推定しています。
私たちの方法は、ほとんどの場合、最先端のモデルや RGB のみのバリアントよりも優れています。これは、深度が 2D 画面に表示されるビデオの顕著性を正確に推定するのに有益であることを示しています。
深度は、顕著な物体検出の問題を支援するために広く使用されており、非常に有益であることが証明されています。
ただし、私たちの問題は、特定の顕著なオブジェクトに限定されず、より一般的な側面で人間の注意を予測するため、顕著なオブジェクトの検出とは大きく異なります。
これら 2 つの問題には、目的が異なるだけでなく、グラウンド トゥルース データと評価基準も異なります。
私たちの知る限り、これは、「実際の」顕著性推定の一般的な問題に対処するために、RGB 機能と深度機能の両方を組み合わせた、初めての競争力のあるディープ ラーニング ビデオ顕著性推定アプローチです。
コードは公開されます。

要約(オリジナル)

We introduce ViDaS, a two-stream, fully convolutional Video, Depth-Aware Saliency network to address the problem of attention modeling “in-the-wild’, via saliency prediction in videos. Contrary to existing visual saliency approaches using only RGB frames as input, our network employs also depth as an additional modality. The network consists of two visual streams, one for the RGB frames, and one for the depth frames. Both streams follow an encoder-decoder approach and are fused to obtain a final saliency map. The network is trained end-to-end and is evaluated in a variety of different databases with eye-tracking data, containing a wide range of video content. Although the publicly available datasets do not contain depth, we estimate it using three different state-of-the-art methods, to enable comparisons and a deeper insight. Our method outperforms in most cases state-of-the-art models and our RGB-only variant, which indicates that depth can be beneficial to accurately estimating saliency in videos displayed on a 2D screen. Depth has been widely used to assist salient object detection problems, where it has been proven to be very beneficial. Our problem though differs significantly from salient object detection, since it is not restricted to specific salient objects, but predicts human attention in a more general aspect. These two problems not only have different objectives, but also different ground truth data and evaluation metrics. To our best knowledge, this is the first competitive deep learning video saliency estimation approach that combines both RGB and Depth features to address the general problem of saliency estimation “in-the-wild’. The code will be publicly released.

arxiv情報

著者 Ioanna Diamanti,Antigoni Tsiami,Petros Koutras,Petros Maragos
発行日 2023-05-19 15:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク