Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

要約

人間の話者は、画像内の同じオブジェクトを説明するときにさまざまな異なる表現を使用し、実用的な制約によって駆動されるもっともらしいラベルの分布を生み出しますが、現在の視覚と言語の大規模言語モデル (VLLM) がこの重要な点をどの程度模倣できるかはわかりません。
言語使用の特徴は未解決の質問です。
これは、一般的な日常のオブジェクトに当てはまりますが、カテゴリ ラベルが欠けていたり曖昧だったりする珍しいオブジェクトや新しいオブジェクトの場合は特に興味深いです。
さらに、人間は、数量詞「少数」または「ほとんど」など、文脈に依存する表現に対して明確な好みを示します。
私たちの研究では、これまでほとんど調査されていなかったデータセットとリソースを使用して、人間がもっともらしいラベル上の分布に関して大きな主観的な変動を示す 3 つのカテゴリ (名詞、属性、数量詞) で VLLM (FROMAGe、BLIP-2、LLaVA) を評価しました。
仕事。
私たちの結果は、VLLM が人間のネーミングの好みを捕捉する能力に関するさまざまな証拠を明らかにしており、すべてのモデルが量指定子の割り当てなどの高度な推論を必要とするタスクに失敗しています。

要約(オリジナル)

While human speakers use a variety of different expressions when describing the same object in an image, giving rise to a distribution of plausible labels driven by pragmatic constraints, the extent to which current Vision \& Language Large Language Models (VLLMs) can mimic this crucial feature of language use is an open question. This applies to common, everyday objects, but it is particularly interesting for uncommon or novel objects for which a category label may be lacking or fuzzy. Furthermore, humans show clear production preferences for highly context-sensitive expressions, such as the quantifiers `few’ or `most’. In our work, we evaluate VLLMs (FROMAGe, BLIP-2, LLaVA) on three categories (nouns, attributes, and quantifiers) where humans show great subjective variability concerning the distribution over plausible labels, using datasets and resources mostly under-explored in previous work. Our results reveal mixed evidence on the ability of VLLMs to capture human naming preferences, with all models failing in tasks that require high-level reasoning such as assigning quantifiers.

arxiv情報

著者 Alberto Testoni,Juell Sprott,Sandro Pezzelle
発行日 2024-03-13 09:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク