Exploring Affordance and Situated Meaning in Image Captions: A Multimodal Analysis

要約

この論文では、計算上の認知言語学的観点から、マルチモーダルな意味表現に関する基礎的な問題を検討します。
Flickr30k データセットの画像に、アフォーダンス、知覚顕著性、物体番号、視線キューイング、生態学的ニッチ アソシエーション (ENA) の 5 つの知覚プロパティで注釈を付け、画像キャプション内のテキスト要素との関連を調べます。
私たちの調査結果では、ギブソン アフォーダンスを持つ画像は、テリック アフォーダンスを示す画像と比較して、「保持動詞」と「コンテナ名詞」を含むキャプションの頻度が高いことが明らかになりました。
知覚的顕著性、物体番号、ENA も言語表現の選択に関連します。
私たちの研究は、物体や出来事を包括的に理解するには、認知的注意、言語の意味上のニュアンス、および複数のモダリティにわたる統合が必要であることを示しています。
私たちは、自然言語理解に基づいた状況に応じた意味とアフォーダンスの極めて重要性を強調し、さまざまなシナリオで人間のような解釈を前進させる可能性を備えています。

要約(オリジナル)

This paper explores the grounding issue regarding multimodal semantic representation from a computational cognitive-linguistic view. We annotate images from the Flickr30k dataset with five perceptual properties: Affordance, Perceptual Salience, Object Number, Gaze Cueing, and Ecological Niche Association (ENA), and examine their association with textual elements in the image captions. Our findings reveal that images with Gibsonian affordance show a higher frequency of captions containing ‘holding-verbs’ and ‘container-nouns’ compared to images displaying telic affordance. Perceptual Salience, Object Number, and ENA are also associated with the choice of linguistic expressions. Our study demonstrates that comprehensive understanding of objects or events requires cognitive attention, semantic nuances in language, and integration across multiple modalities. We highlight the vital importance of situated meaning and affordance grounding in natural language understanding, with the potential to advance human-like interpretation in various scenarios.

arxiv情報

著者 Pin-Er Chen,Po-Ya Angela Wang,Hsin-Yu Chou,Yu-Hsiang Tseng,Shu-Kai Hsieh
発行日 2023-10-24 11:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク