TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving

要約

自律運転で視覚的な質問回答(VQA)に採用されたビジョン言語モデル(VLM)は、多くの場合、リソースに制約のある車両での展開に課題をもたらす実質的な計算リソースを必要とします。
この課題に対処するために、TinyDriveを導入します。これは、運転シナリオでマルチビューVQAに軽量でありながら効果的なVLMを紹介します。
モデルは、マルチスケールビジョンエンコーダーと、トークンとシーケンスのデュアルレベルの優先順位付けメカニズムを含む2つの重要なコンポーネントで構成されています。
Multiscaleエンコーダーは、スケールインジェクションとクロススケールゲーティングを通じて、多様な解像度でのマルチビュー画像の処理を促進し、視覚表現の強化を生成します。
トークンレベルでは、学習された重要性スコアに基づいて最も有益なトークンを動的に選択および処理するトークンルーティングメカニズムを設計します。
シーケンスレベルでは、正規化された損失、不確実性の推定値、および多様性メトリックを統合して、シーケンス優先バッファー内でサンプルをランク付けおよび保存するシーケンススコアを策定することを提案します。
スコアが高いサンプルは、トレーニングのためにより頻繁に選択されます。
TinyDriveは、最初にカスタムキュレーションのVQAデータセットで評価され、その後、パブリックドライベルベンチマークでテストされ、最先端の言語理解パフォーマンスを実現します。
特に、パラメーターカウントが大幅に小さいにもかかわらず、BLE-4およびMeteorスコアでそれぞれ11.1%と35.4%の相対的な改善を達成します。

要約(オリジナル)

Vision Language Models (VLMs) employed for visual question-answering (VQA) in autonomous driving often require substantial computational resources that pose a challenge for their deployment in resource-constrained vehicles. To address this challenge, we introduce TinyDrive, a lightweight yet effective VLM for multi-view VQA in driving scenarios. Our model comprises two key components including a multiscale vision encoder and a dual-level prioritization mechanism for tokens and sequences. The multiscale encoder facilitates the processing of multi-view images at diverse resolutions through scale injection and cross-scale gating to generate enhanced visual representations. At the token level, we design a token routing mechanism that dynamically selects and process the most informative tokens based on learned importance scores. At the sequence level, we propose integrating normalized loss, uncertainty estimates, and a diversity metric to formulate sequence scores that rank and preserve samples within a sequence priority buffer. Samples with higher scores are more frequently selected for training. TinyDrive is first evaluated on our custom-curated VQA dataset, and it is subsequently tested on the public DriveLM benchmark, where it achieves state-of-the-art language understanding performance. Notably, it achieves relative improvements of 11.1% and 35.4% in BLEU-4 and METEOR scores, respectively, despite having a significantly smaller parameter count.

arxiv情報

著者 Hossein Hassani,Soodeh Nikan,Abdallah Shami
発行日 2025-05-21 14:19:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク