NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic Videos

要約

メタバースの波に伴い、非フォトリアリスティックなビデオが求められていますが、十分な調査研究が不足しています。
この研究は、人間が注視 (つまり顕著性検出) によって非フォトリアリスティックなビデオをどのように認識するかを理解するために一歩前進することを目的としています。これは、メディア制作、芸術的デザイン、およびゲームのユーザー エクスペリエンスを向上させるために重要です。
この研究ラインに適したデータセットが欠落しているというギャップを埋めるために、目を固定した純粋に非フォトリアリスティックなビデオからなる初の大規模マルチモーダル データセットである NPF-200 を紹介します。
私たちのデータセットには 3 つの特徴があります。1) 視覚と心理学の研究によれば、不可欠なサウンドトラックが含まれています。
2) 多様な意味論的なコンテンツが含まれており、ビデオの品質が高い。
3) ビデオ全体およびビデオ内で豊かな動きがあります。
私たちは、このタスクについてより深い洞察を得るために一連の分析を実施し、いくつかの最先端の方法を比較して、自然画像と非フォトリアリスティックなデータの間のギャップを調査します。
さらに、人間の注意システムは異なる周波数の視覚的特徴と音声的特徴を抽出する傾向があるため、NPSNet と呼ばれる普遍的な周波数認識マルチモーダル非フォトリアリスティック顕著性検出モデルを提案し、タスクの最先端のパフォーマンスを実証します。

その結果、マルチモーダル ネットワーク設計とマルチドメイン トレーニングの長所と短所が明らかになり、将来の研究に有望な方向性が開かれます。
{私たちのデータセットとコードは \url{https://github.com/Yangziyu/NPF200}} にあります。

要約(オリジナル)

Non-photorealistic videos are in demand with the wave of the metaverse, but lack of sufficient research studies. This work aims to take a step forward to understand how humans perceive non-photorealistic videos with eye fixation (\ie, saliency detection), which is critical for enhancing media production, artistic design, and game user experience. To fill in the gap of missing a suitable dataset for this research line, we present NPF-200, the first large-scale multi-modal dataset of purely non-photorealistic videos with eye fixations. Our dataset has three characteristics: 1) it contains soundtracks that are essential according to vision and psychological studies; 2) it includes diverse semantic content and videos are of high-quality; 3) it has rich motions across and within videos. We conduct a series of analyses to gain deeper insights into this task and compare several state-of-the-art methods to explore the gap between natural images and non-photorealistic data. Additionally, as the human attention system tends to extract visual and audio features with different frequencies, we propose a universal frequency-aware multi-modal non-photorealistic saliency detection model called NPSNet, demonstrating the state-of-the-art performance of our task. The results uncover strengths and weaknesses of multi-modal network design and multi-domain training, opening up promising directions for future works. {Our dataset and code can be found at \url{https://github.com/Yangziyu/NPF200}}.

arxiv情報

著者 Ziyu Yang,Sucheng Ren,Zongwei Wu,Nanxuan Zhao,Junle Wang,Jing Qin,Shengfeng He
発行日 2023-08-23 14:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク