Simplicity in Complexity

要約

視覚刺激の複雑さは、注意、関与、記憶力、時間認識、美的評価などの多くの認知現象において重要な役割を果たします。
その重要性にもかかわらず、複雑さはほとんど理解されておらず、皮肉なことに、画像の複雑さの以前のモデルは非常に \textit{複雑}でした。
複雑さを説明する手作りの特徴を見つける試みは数多く行われてきましたが、これらの特徴は通常データセット固有のものであるため、一般化することができません。
一方、より最近の研究では、ディープ ニューラル ネットワークを使用して複雑さを予測していますが、これらのモデルは依然として解釈が難しく、問題の理論的な理解を導くものではありません。
ここでは、画像のセグメントベースの表現を使用して複雑さをモデル化することを提案します。
最先端のセグメンテーション モデルである SAM と FC-CLIP を使用して、複数の粒度でセグメントの数と画像内のクラスの数をそれぞれ定量化します。
複雑さは、自然主義的なシーンとアート画像の 6 つの多様な画像セットにわたるこれら 2 つの特徴を備えた単純な線形モデルによって十分に説明されることがわかりました。
これは、画像の複雑さは驚くほど単純である可能性があることを示唆しています。

要約(オリジナル)

The complexity of visual stimuli plays an important role in many cognitive phenomena, including attention, engagement, memorability, time perception and aesthetic evaluation. Despite its importance, complexity is poorly understood and ironically, previous models of image complexity have been quite \textit{complex}. There have been many attempts to find handcrafted features that explain complexity, but these features are usually dataset specific, and hence fail to generalise. On the other hand, more recent work has employed deep neural networks to predict complexity, but these models remain difficult to interpret, and do not guide a theoretical understanding of the problem. Here we propose to model complexity using segment-based representations of images. We use state-of-the-art segmentation models, SAM and FC-CLIP, to quantify the number of segments at multiple granularities, and the number of classes in an image respectively. We find that complexity is well-explained by a simple linear model with these two features across six diverse image-sets of naturalistic scene and art images. This suggests that the complexity of images can be surprisingly simple.

arxiv情報

著者 Kevin Shen,Surabhi S Nath,Aenne Brielmann,Peter Dayan
発行日 2024-03-05 17:21:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, q-bio.NC パーマリンク