要約
ディープラーニングは、いくつかの物体認識ベンチマークにおいて、人間の視覚との差を縮めつつある。ここでは、物体が通常とは異なるポーズをとっているような困難な画像について、このギャップを調査する。我々は、人間がそのようなポーズの物体を認識することに優れていることを発見した。これとは対照的に、最先端の視覚用ディープネットワーク(EfficientNet、SWAG、ViT、SWIN、BEiT、ConvNext)や、最先端の大規模視覚言語モデル(Claude 3.5、Gemini 1.5、GPT-4)は、Geminiを除いて、通常とは異なるポーズに対して系統的に脆い。画像の露光時間を制限すると、人間の性能はディープネットワークのレベルまで低下し、異常なポーズの物体を識別するためには、(さらに時間を必要とする)付加的な心的プロセスが必要であることが示唆される。人間とネットワークのエラーパターンの分析から、時間制限された人間でさえ、フィードフォワード型ディープネットワークとは異なることが明らかになった。結論として、我々の比較から、人間とディープネットワークは、通常とは異なるポーズの物体を認識するために異なるメカニズムに依存していることが明らかになった。余分な視聴時間の間に行われる精神的プロセスの性質を理解することは、人間の視覚の頑健性をシリコで再現するための鍵となるかもしれない。
要約(オリジナル)
Deep learning is closing the gap with human vision on several object recognition benchmarks. Here we investigate this gap for challenging images where objects are seen in unusual poses. We find that humans excel at recognizing objects in such poses. In contrast, state-of-the-art deep networks for vision (EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext) and state-of-the-art large vision-language models (Claude 3.5, Gemini 1.5, GPT-4) are systematically brittle on unusual poses, with the exception of Gemini showing excellent robustness in that condition. As we limit image exposure time, human performance degrades to the level of deep networks, suggesting that additional mental processes (requiring additional time) are necessary to identify objects in unusual poses. An analysis of error patterns of humans vs. networks reveals that even time-limited humans are dissimilar to feed-forward deep networks. In conclusion, our comparison reveals that humans and deep networks rely on different mechanisms for recognizing objects in unusual poses. Understanding the nature of the mental processes taking place during extra viewing time may be key to reproduce the robustness of human vision in silico.
arxiv情報
著者 | Netta Ollikka,Amro Abbas,Andrea Perin,Markku Kilpeläinen,Stéphane Deny |
発行日 | 2025-02-03 09:37:06+00:00 |
arxivサイト | arxiv_id(pdf) |