Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes

要約

画像の特性と、人間がその画像を描写するときの振る舞いには複雑な関係がある。この振る舞いは、目の動きや画像を描写し始めるタイミングなどの人間のシグナルに現れるように、十分なバリエーションを示す。このような視覚言語的変化の信号の価値にもかかわらず、それらは現在の事前学習モデルの学習では事実上無視されている。オランダ語の画像説明コーパスと同時に収集されたアイトラッキングデータを用いて、視覚言語的シグナルの変動の性質を調べ、それらが互いに相関していることを発見した。この結果を踏まえて、我々は、ばらつきの一部は画像の特性に起因しているという仮説を立て、事前訓練された視覚エンコーダによってエンコードされた画像表現がそのようなばらつきを捉えることができるかどうかを調べる。その結果、事前訓練されたモデルは、弱から中程度の程度でそのようなことができることが示され、このモデルは、何が人間にとって刺激を複雑にし、何が人間の出力のばらつきをもたらすかについてのバイアスがないことが示唆された。

要約(オリジナル)

There is an intricate relation between the properties of an image and how humans behave while describing the image. This behavior shows ample variation, as manifested in human signals such as eye movements and when humans start to describe the image. Despite the value of such signals of visuo-linguistic variation, they are virtually disregarded in the training of current pretrained models, which motivates further investigation. Using a corpus of Dutch image descriptions with concurrently collected eye-tracking data, we explore the nature of the variation in visuo-linguistic signals, and find that they correlate with each other. Given this result, we hypothesize that variation stems partly from the properties of the images, and explore whether image representations encoded by pretrained vision encoders can capture such variation. Our results indicate that pretrained models do so to a weak-to-moderate degree, suggesting that the models lack biases about what makes a stimulus complex for humans and what leads to variations in human outputs.

arxiv情報

著者 Ece Takmaz,Sandro Pezzelle,Raquel Fernández
発行日 2024-02-02 12:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク