要約
視覚的視点(VPT)は、他者の視点について知覚する能力と推論です。
これは、人生の最初の10年にわたって発展し、視覚シーンの3D構造を処理する能力を必要とする人間の知性の重要な特徴です。
ますます多くのレポートにより、深いニューラルネットワーク(DNN)が大規模な画像データセットでトレーニングした後、3Dシーンを分析できることが示されています。
DNNSでの3D分析のこの緊急能力が、3D認識チャレンジ(3D-PC)を使用してVPTに十分であるかどうかを調査しました。これは、人間とDNNSの3D認識のための新しいベンチマークです。
3D-PCは、自然なシーン画像内にポーズをとった3つの3D分析タスクで構成されています。1。オブジェクト深度順序の簡単なテスト、2。基本的なVPTタスク(VPT-basic)、および3。別のバージョンの「ショートカット」視覚戦略の有効性を制限するように設計されたVPT(VPT-Strategy)。
人間の参加者(n = 33)をテストし(n = 33)、課題について300を超えるDNNSを線形にプローブまたはテキストプロンプト化し、ほとんどすべてのDNNがオブジェクトの深さ順序を分析する際に人間の精度に近づくか、それを超えたことを発見しました。
驚くべきことに、このタスクのDNN精度は、オブジェクト認識パフォーマンスと相関していました。
対照的に、VPT-BasicでDNNと人間の間に並外れたギャップがありました。
人間はほぼ完璧でしたが、ほとんどのDNNはほぼ偶然でした。
VPT-BasicでDNNを微調整すると、彼らは人間のパフォーマンスに近づきましたが、彼らは、人間とは異なり、VPT戦略でテストされたときに偶然に戻りました。
私たちの課題は、今日のDNNのトレーニングルーチンとアーキテクチャは、シーンやオブジェクトの基本的な3Dプロパティを学習するのに適しているが、人間と同様にこれらの特性について推論するのに適していないことを示しています。
3D-PCデータセットとコードをリリースして、人間と機械の間の3D認識でこのギャップを埋めるのに役立ちます。
要約(オリジナル)
Visual perspective taking (VPT) is the ability to perceive and reason about the perspectives of others. It is an essential feature of human intelligence, which develops over the first decade of life and requires an ability to process the 3D structure of visual scenes. A growing number of reports have indicated that deep neural networks (DNNs) become capable of analyzing 3D scenes after training on large image datasets. We investigated if this emergent ability for 3D analysis in DNNs is sufficient for VPT with the 3D perception challenge (3D-PC): a novel benchmark for 3D perception in humans and DNNs. The 3D-PC is comprised of three 3D-analysis tasks posed within natural scene images: 1. a simple test of object depth order, 2. a basic VPT task (VPT-basic), and 3. another version of VPT (VPT-Strategy) designed to limit the effectiveness of ‘shortcut’ visual strategies. We tested human participants (N=33) and linearly probed or text-prompted over 300 DNNs on the challenge and found that nearly all of the DNNs approached or exceeded human accuracy in analyzing object depth order. Surprisingly, DNN accuracy on this task correlated with their object recognition performance. In contrast, there was an extraordinary gap between DNNs and humans on VPT-basic. Humans were nearly perfect, whereas most DNNs were near chance. Fine-tuning DNNs on VPT-basic brought them close to human performance, but they, unlike humans, dropped back to chance when tested on VPT-Strategy. Our challenge demonstrates that the training routines and architectures of today’s DNNs are well-suited for learning basic 3D properties of scenes and objects but are ill-suited for reasoning about these properties as humans do. We release our 3D-PC datasets and code to help bridge this gap in 3D perception between humans and machines.
arxiv情報
| 著者 | Drew Linsley,Peisen Zhou,Alekh Karkada Ashok,Akash Nagaraj,Gaurav Gaonkar,Francis E Lewis,Zygmunt Pizlo,Thomas Serre |
| 発行日 | 2025-02-28 14:49:44+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google