Image Memorability Prediction with Vision Transformers

要約

行動研究は、画像の記憶力が人々のグループ全体で類似していることを示しており、記憶力は画像の固有の特性の関数であり、人々の個々の経験や特性とは無関係であることを示唆しています.
ディープ ラーニング ネットワークは、そのような特性でトレーニングすることができ、新しいデータ セットの記憶可能性を予測するために使用できます。
畳み込みニューラル ネットワーク (CNN) は、画像記憶可能性予測の先駆者ですが、最近開発されたビジョン トランスフォーマー (ViT) モデルは、さらに優れた予測を生み出す可能性があります。
この論文では、ViTに基づく新しい記憶力モデルであるViTMemを提示し、それによって得られた記憶力予測を最先端のCNN派生モデルで評価します。
結果は、ViTMem がすべてのデータセットで最先端のモデルと同等またはそれ以上のパフォーマンスを発揮することを示しました。
追加のセマンティック レベルの分析により、ViTMem は画像の記憶力を高めるセマンティック コンテンツに特に敏感であることが明らかになりました。
ViTMem は新たな一歩を踏み出すと結論付け、ViT から派生したモデルが画像の記憶可能性の計算予測のために CNN を置き換えることができることを提案します。
研究者、教育者、広告主、ビジュアル デザイナー、およびその他の関係者は、このモデルを活用して、画像素材の記憶力を向上させることができます。

要約(オリジナル)

Behavioral studies have shown that the memorability of images is similar across groups of people, suggesting that memorability is a function of the intrinsic properties of images, and is unrelated to people’s individual experiences and traits. Deep learning networks can be trained on such properties and be used to predict memorability in new data sets. Convolutional neural networks (CNN) have pioneered image memorability prediction, but more recently developed vision transformer (ViT) models may have the potential to yield even better predictions. In this paper, we present the ViTMem, a new memorability model based on ViT, and evaluate memorability predictions obtained by it with state-of-the-art CNN-derived models. Results showed that ViTMem performed equal to or better than state-of-the-art models on all data sets. Additional semantic level analyses revealed that ViTMem is particularly sensitive to the semantic content that drives memorability in images. We conclude that ViTMem provides a new step forward, and propose that ViT-derived models can replace CNNs for computational prediction of image memorability. Researchers, educators, advertisers, visual designers and other interested parties can leverage the model to improve the memorability of their image material.

arxiv情報

著者 Thomas Hagen,Thomas Espeseth
発行日 2023-01-20 15:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク