要約
自動運転 (AD) におけるエンドツーエンドのアーキテクチャは、人間と AI の信頼関係を妨げる解釈可能性という重大な課題に直面しています。
人間に優しい自然言語は、運転説明や 3D キャプションなどのタスクのために研究されてきました。
しかし、これまでの研究は主に宣言的解釈可能性のパラダイムに焦点を当てており、自然言語解釈は AD システムの中間出力に基づいていないため、解釈は宣言的のみとなっていました。
対照的に、調整された解釈可能性は、言語と AD システムの中間出力との間の接続を確立します。
ここでは、AD モデルの全体的な知覚、予測、計画の出力に合わせた言語を生成する、統合型 AD 言語システムである Hint-AD を紹介します。
中間出力と効果的な機能適応のための全体的なトークン ミキサー サブネットワークを組み込むことで、Hint-AD は望ましい精度を実現し、運転説明、3D 高密度キャプション、コマンド予測などの運転言語タスクにおいて最先端の結果を達成します。
nuScenes での運転説明タスクのさらなる研究を促進するために、人間のラベルが付けられたデータセット、Nu-X も導入しました。
コード、データセット、モデルは一般公開されます。
要約(オリジナル)
End-to-end architectures in autonomous driving (AD) face a significant challenge in interpretability, impeding human-AI trust. Human-friendly natural language has been explored for tasks such as driving explanation and 3D captioning. However, previous works primarily focused on the paradigm of declarative interpretability, where the natural language interpretations are not grounded in the intermediate outputs of AD systems, making the interpretations only declarative. In contrast, aligned interpretability establishes a connection between language and the intermediate outputs of AD systems. Here we introduce Hint-AD, an integrated AD-language system that generates language aligned with the holistic perception-prediction-planning outputs of the AD model. By incorporating the intermediate outputs and a holistic token mixer sub-network for effective feature adaptation, Hint-AD achieves desirable accuracy, achieving state-of-the-art results in driving language tasks including driving explanation, 3D dense captioning, and command prediction. To facilitate further study on driving explanation task on nuScenes, we also introduce a human-labeled dataset, Nu-X. Codes, dataset, and models will be publicly available.
arxiv情報
著者 | Kairui Ding,Boyuan Chen,Yuchen Su,Huan-ang Gao,Bu Jin,Chonghao Sima,Wuqiang Zhang,Xiaohui Li,Paul Barsch,Hongyang Li,Hao Zhao |
発行日 | 2024-09-10 17:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google