Towards a performance analysis on pre-trained Visual Question Answering models for autonomous driving

要約

この短いペーパーでは、運転シナリオに関する質問に答えるという観点から、3 つの一般的なビジュアル質問応答 (VQA) モデル、つまり ViLBERT、ViLT、および LXMERT の予備分析を示します。
これらのモデルのパフォーマンスは、コンピューター ビジョンの専門家によって提供された参照回答と回答の類似性を比較することによって評価されます。
モデルの選択は、マルチモーダル アーキテクチャにおける変圧器の利用状況の分析に基づいて行われます。
この結果は、クロスモーダル注意と後期融合技術を組み込んだモデルが、運転の観点から改善された答えを生成する有望な可能性を示していることを示しています。
この初期分析は、9 つ​​の VQA モデルを含む今後の包括的な比較研究の出発点として機能し、自動運転シナリオにおける VQA モデル クエリの有効性についてのさらなる調査の準備を整えます。
補足資料は https://github.com/KaavyaRekanar/Towards-a-performance-analysis-on-pre-trained-VQA-models-for-autonomous-driving で入手できます。

要約(オリジナル)

This short paper presents a preliminary analysis of three popular Visual Question Answering (VQA) models, namely ViLBERT, ViLT, and LXMERT, in the context of answering questions relating to driving scenarios. The performance of these models is evaluated by comparing the similarity of responses to reference answers provided by computer vision experts. Model selection is predicated on the analysis of transformer utilization in multimodal architectures. The results indicate that models incorporating cross-modal attention and late fusion techniques exhibit promising potential for generating improved answers within a driving perspective. This initial analysis serves as a launchpad for a forthcoming comprehensive comparative study involving nine VQA models and sets the scene for further investigations into the effectiveness of VQA model queries in self-driving scenarios. Supplementary material is available at https://github.com/KaavyaRekanar/Towards-a-performance-analysis-on-pre-trained-VQA-models-for-autonomous-driving.

arxiv情報

著者 Kaavya Rekanar,Ciarán Eising,Ganesh Sistu,Martin Hayes
発行日 2023-07-28 09:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク