要約
自動運転車 (AV) の分野では、指揮官の意図を正確に識別し、視覚的なコンテキスト内で言語コマンドを実行することが大きな課題となります。
このペーパーでは、AV のビジュアル グラウンディングに対処するために開発された、洗練されたエンコーダ デコーダ フレームワークを紹介します。当社の Context-Aware Visual Grounding (CAVG) モデルは、5 つのコア エンコーダ (テキスト、イメージ、コンテキスト、クロスモーダル) を統合する高度なシステムです。
マルチモーダルデコーダ。
この統合により、CAVG モデルは、GPT-4 を含む最先端の大規模言語モデル (LLM) によって強化された、文脈上の意味論を適切にキャプチャし、人間の感情的特徴を学習できるようになります。
CAVG のアーキテクチャは、マルチヘッド クロスモーダル アテンション メカニズムとアテンション変調のための領域固有ダイナミック (RSD) 層の実装によって強化されています。
このアーキテクチャ設計により、モデルはさまざまなクロスモーダル入力を効率的に処理および解釈できるようになり、口頭コマンドと対応する視覚シーンの間の相関関係を包括的に理解できるようになります。
現実世界のベンチマークである Talk2Car データセットの実証的評価は、CAVG が予測精度と運用効率の新しい基準を確立していることを示しています。
特に、このモデルは、データセット全体の 50% から 75% の範囲の限られたトレーニング データでも優れたパフォーマンスを示します。
この機能は、実際の AV アプリケーションへの導入の有効性と可能性を強調しています。
さらに、CAVG は、長文コマンドの解釈、低照度条件、曖昧なコマンド コンテキスト、悪天候、人口密集した都市環境などの困難なシナリオにおいて、顕著な堅牢性と適応性を示しています。
提案されたモデルのコードは Github で入手できます。
要約(オリジナル)
In the field of autonomous vehicles (AVs), accurately discerning commander intent and executing linguistic commands within a visual context presents a significant challenge. This paper introduces a sophisticated encoder-decoder framework, developed to address visual grounding in AVs.Our Context-Aware Visual Grounding (CAVG) model is an advanced system that integrates five core encoders-Text, Image, Context, and Cross-Modal-with a Multimodal decoder. This integration enables the CAVG model to adeptly capture contextual semantics and to learn human emotional features, augmented by state-of-the-art Large Language Models (LLMs) including GPT-4. The architecture of CAVG is reinforced by the implementation of multi-head cross-modal attention mechanisms and a Region-Specific Dynamic (RSD) layer for attention modulation. This architectural design enables the model to efficiently process and interpret a range of cross-modal inputs, yielding a comprehensive understanding of the correlation between verbal commands and corresponding visual scenes. Empirical evaluations on the Talk2Car dataset, a real-world benchmark, demonstrate that CAVG establishes new standards in prediction accuracy and operational efficiency. Notably, the model exhibits exceptional performance even with limited training data, ranging from 50% to 75% of the full dataset. This feature highlights its effectiveness and potential for deployment in practical AV applications. Moreover, CAVG has shown remarkable robustness and adaptability in challenging scenarios, including long-text command interpretation, low-light conditions, ambiguous command contexts, inclement weather conditions, and densely populated urban environments. The code for the proposed model is available at our Github.
arxiv情報
著者 | Haicheng Liao,Huanming Shen,Zhenning Li,Chengyue Wang,Guofa Li,Yiming Bie,Chengzhong Xu |
発行日 | 2023-12-06 15:14:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google