要約
知覚的恒常性とは、距離、角度、照明の変動など、感覚入力の変化にもかかわらず、オブジェクトの安定した知覚を維持する能力です。
この能力は、動的な世界で視覚情報を認識するために重要であり、ビジョン言語モデル(VLM)に不可欠です。
ただし、VLMが現在、理論的にはこの能力を習得できるかどうかは、既知のままです。
この研究では、色、サイズ、形状の恒常性の3つのドメインにわたる253の実験を使用して、33のVLMSを評価しました。
実験には、さまざまな条件下でのオブジェクト特性のモデルの認識を評価するために、古典的な認知タスクの単一画像およびビデオの適応と、野生の条件での新しいタスクが含まれていました。
VLMパフォーマンスに大きなばらつきがあり、形状の恒常性のパフォーマンスは、色とサイズの恒常性のモデルのパフォーマンスから明確に解離されました。
要約(オリジナル)
Perceptual constancy is the ability to maintain stable perceptions of objects despite changes in sensory input, such as variations in distance, angle, or lighting. This ability is crucial for recognizing visual information in a dynamic world, making it essential for Vision-Language Models (VLMs). However, whether VLMs are currently and theoretically capable of mastering this ability remains underexplored. In this study, we evaluated 33 VLMs using 253 experiments across three domains: color, size, and shape constancy. The experiments included single-image and video adaptations of classic cognitive tasks, along with novel tasks in in-the-wild conditions, to evaluate the models’ recognition of object properties under varying conditions. We found significant variability in VLM performance, with models performance in shape constancy clearly dissociated from that of color and size constancy.
arxiv情報
著者 | Haoran Sun,Suyang Yu,Yijiang Li,Qingying Gao,Haiyun Lyu,Hokin Deng,Dezhi Luo |
発行日 | 2025-02-14 16:31:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google