Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

要約

商用自動運転車 (AV) と先進運転支援システム (ADAS) の普及は、それらが社会に受け入れられるかどうかに大きく左右される可能性があり、そのためには、ライダーに対する信頼性と解釈可能性が認識されることが重要です。
一般に、最新の自律システム ソフトウェアはブラックボックスの人工知能モデルに大きく依存しているため、このタスクは困難です。
この目標に向けて、この論文では、重要度レベルをランク付けし、重要性の理由を伝えるためのマルチモーダル自己中心データセットである新しいデータセット Rank2Tell を紹介します。
このデータセットは、さまざまなクローズドエンドおよびオープンエンドの視覚的な質問応答を使用して、複雑な交通シナリオにおけるさまざまな重要なオブジェクトのさまざまな意味論的、空間的、時間的、および関係的属性の緻密な注釈を提供します。
データセットの高密度の注釈と固有の属性により、視覚的なシーンの理解や関連分野に取り組む研究者にとって貴重なリソースになります。
さらに、共同重要度レベルのランキングと自然言語キャプション生成のための共同モデルを導入して、データセットのベンチマークを行い、定量的評価でパフォーマンスを実証します。

要約(オリジナル)

The widespread adoption of commercial autonomous vehicles (AVs) and advanced driver assistance systems (ADAS) may largely depend on their acceptance by society, for which their perceived trustworthiness and interpretability to riders are crucial. In general, this task is challenging because modern autonomous systems software relies heavily on black-box artificial intelligence models. Towards this goal, this paper introduces a novel dataset, Rank2Tell, a multi-modal ego-centric dataset for Ranking the importance level and Telling the reason for the importance. Using various close and open-ended visual question answering, the dataset provides dense annotations of various semantic, spatial, temporal, and relational attributes of various important objects in complex traffic scenarios. The dense annotations and unique attributes of the dataset make it a valuable resource for researchers working on visual scene understanding and related fields. Furthermore, we introduce a joint model for joint importance level ranking and natural language captions generation to benchmark our dataset and demonstrate performance with quantitative evaluations.

arxiv情報

著者 Enna Sachdeva,Nakul Agarwal,Suhas Chundi,Sean Roelofs,Jiachen Li,Mykel Kochenderfer,Chiho Choi,Behzad Dariush
発行日 2023-11-08 09:12:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク