Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

要約

マルチモーダルの基礎モデルが自動運転車に実験的に展開され始めると、私たちが尋ねる合理的な質問は、特定の運転状況、特に分散型の状況でこれらのシステムにどの程度類似しているかということです。
これを研究するために、ペルーからのダッシュカムビデオデータを使用するRobusto-1データセットを作成します。これは、世界で最悪の(攻撃的な)ドライバーの1つ、交通指数が高く、トレーニングで見られないと思われる奇妙なストリートオブジェクトと奇妙なストリートオブジェクトの比率が高い国です。
特に、運転中の人間と比較して、基礎視覚言語モデル(VLM)が境界ボックス、セグメンテーションマップ、占有マップ、または軌道推定から、マルチモーダルの視覚的質問(VQA)から、類似の類似性分析の表現として知られている系統系の人間と機械の両方を比較するマルチモーダル視覚質問(VQA)から、認知レベルでどの程度の基礎視覚言語モデル(VLM)がどれだけうまくいくかを予備的にテストするために。
私たちが尋ねる質問の種類とこれらのシステムが与える答えに応じて、VLMと人間が収束または分岐する場合、私たちは彼らの認知的アライメントを調べることができるようになります。
アラインメントの程度は、各タイプのシステム(人間とVLMS)に尋ねられる質問の種類によって大きく異なることがわかり、アライメントのギャップを強調しています。

要約(オリジナル)

As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations — especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.

arxiv情報

著者 Dunant Cusipuma,David Ortega,Victor Flores-Benites,Arturo Deza
発行日 2025-03-10 17:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク