Simplicity in Complexity : Explaining Visual Complexity using Deep Segmentation Models

要約

視覚刺激の複雑さは、注意、関与、記憶性、時間知覚、美的評価など、多くの認知現象において重要な役割を果たしている。その重要性にもかかわらず、複雑性はあまり理解されておらず、皮肉なことに、画像の複雑性に関するこれまでのモデルは非常に複雑なものであった。複雑さを説明する手作りの特徴を見つける試みは数多く行われてきたが、これらの特徴は通常データセットに特有であり、それゆえ一般化できない。一方、より最近の研究では、複雑性を予測するためにディープニューラルネットワークが採用されているが、これらのモデルは依然として解釈が難しく、問題の理論的理解を導くものではない。ここでは、画像のセグメントベースの表現を使って複雑性をモデル化することを提案する。最先端のセグメンテーションモデルであるSAMとFC-CLIPを用いて、それぞれ複数の粒度におけるセグメントの数と、画像内のクラスの数を定量化する。その結果、自然な情景画像と芸術画像からなる6つの多様な画像セットにおいて、この2つの特徴量を持つ単純な線形モデルによって、複雑性がよく説明されることがわかった。このことは、画像の複雑さは驚くほど単純であることを示唆している。

要約(オリジナル)

The complexity of visual stimuli plays an important role in many cognitive phenomena, including attention, engagement, memorability, time perception and aesthetic evaluation. Despite its importance, complexity is poorly understood and ironically, previous models of image complexity have been quite complex. There have been many attempts to find handcrafted features that explain complexity, but these features are usually dataset specific, and hence fail to generalise. On the other hand, more recent work has employed deep neural networks to predict complexity, but these models remain difficult to interpret, and do not guide a theoretical understanding of the problem. Here we propose to model complexity using segment-based representations of images. We use state-of-the-art segmentation models, SAM and FC-CLIP, to quantify the number of segments at multiple granularities, and the number of classes in an image respectively. We find that complexity is well-explained by a simple linear model with these two features across six diverse image-sets of naturalistic scene and art images. This suggests that the complexity of images can be surprisingly simple.

arxiv情報

著者 Tingke Shen,Surabhi S Nath,Aenne Brielmann,Peter Dayan
発行日 2024-05-03 12:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, q-bio.NC パーマリンク