Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision

要約

人間の注意を理解することは、視覚科学と AI にとって非常に重要です。
自由に閲覧できるモデルは数多く存在しますが、タスク駆動型の画像探索についてはあまり知られていません。
これに対処するために、キャプションとクリック依存画像探索を備えたデータセットである CapMIT1003 を導入し、キャプション付けタスク中の人間の注意を研究します。
また、CLIP モデルと NeVA アルゴリズムを組み合わせて視覚的なスキャンパスを予測するゼロショット手法である NevaClip も紹介します。
NevaClip は、中心窩の視覚刺激とキャプションの表現を揃えるために注視を生成します。
シミュレートされたスキャンパスは、キャプションや無料視聴タスクの妥当性において、既存の人間の注意モデルよりも優れています。
この研究により、人間の注意に対する理解が深まり、スキャンパス予測モデルが進歩します。

要約(オリジナル)

Understanding human attention is crucial for vision science and AI. While many models exist for free-viewing, less is known about task-driven image exploration. To address this, we introduce CapMIT1003, a dataset with captions and click-contingent image explorations, to study human attention during the captioning task. We also present NevaClip, a zero-shot method for predicting visual scanpaths by combining CLIP models with NeVA algorithms. NevaClip generates fixations to align the representations of foveated visual stimuli and captions. The simulated scanpaths outperform existing human attention models in plausibility for captioning and free-viewing tasks. This research enhances the understanding of human attention and advances scanpath prediction models.

arxiv情報

著者 Dario Zanca,Andrea Zugarini,Simon Dietz,Thomas R. Altstidl,Mark A. Turban Ndjeuha,Leo Schwinn,Bjoern Eskofier
発行日 2024-08-19 12:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク