Humans Beat Deep Networks at Recognizing Objects in Unusual Poses, Given Enough Time

要約

ディープラーニングは、いくつかの物体認識ベンチマークにおいて人間とのギャップを縮めています。
ここでは、物体が珍しい視点から見える挑戦的な画像のコンテキストでこのギャップを調査します。
私たちは、この状態では体系的に脆弱である最先端の事前学習済みネットワーク (EfficientNet、SWAG、ViT、SWIN、BEiT、ConvNext) とは対照的に、人間は異常な姿勢の物体を認識することに優れていることを発見しました。
注目すべきことに、画像の露出時間を制限すると、人間のパフォーマンスは深いネットワークのレベルまで低下します。これは、人間が異常なポーズで物体を識別するときに追加の精神プロセス(追加の時間を必要とする)が発生することを示唆しています。
最後に、人間とネットワークのエラー パターンを分析した結果、時間制限のある人間であっても、フィードフォワードのディープ ネットワークとは似ていないことが明らかになりました。
私たちは、コンピューター ビジョン システムを人間の視覚システムの堅牢性のレベルに引き上げるには、さらなる研究が必要であると結論付けています。
余分な視聴時間中に起こる精神的プロセスの性質を理解することが、そのような堅牢性を達成するための鍵となる可能性があります。

要約(オリジナル)

Deep learning is closing the gap with humans on several object recognition benchmarks. Here we investigate this gap in the context of challenging images where objects are seen from unusual viewpoints. We find that humans excel at recognizing objects in unusual poses, in contrast with state-of-the-art pretrained networks (EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext) which are systematically brittle in this condition. Remarkably, as we limit image exposure time, human performance degrades to the level of deep networks, suggesting that additional mental processes (requiring additional time) take place when humans identify objects in unusual poses. Finally, our analysis of error patterns of humans vs. networks reveals that even time-limited humans are dissimilar to feed-forward deep networks. We conclude that more work is needed to bring computer vision systems to the level of robustness of the human visual system. Understanding the nature of the mental processes taking place during extra viewing time may be key to attain such robustness.

arxiv情報

著者 Netta Ollikka,Amro Abbas,Andrea Perin,Markku Kilpeläinen,Stéphane Deny
発行日 2024-02-06 13:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク