要約
アイドリング車両検出 (IVD) は、不必要なアイドリングを監視して削減するのに役立ち、結果として生じる汚染や有害な生成物に対処するためにリアルタイム システムに統合できます。
以前のアプローチ [13] である非エンドツーエンド モデルでは、入力の一部を指定するためにユーザーが余分にクリックする必要があり、システムの展開でエラーが発生しやすくなったり、実行不可能になったりすることがあります。
対照的に、移動、アイドリング、エンジンオフの 3 つの状態で車両を視覚的に検出するように設計された、エンドツーエンドの統合オーディオビジュアル IVD タスクを導入します。
オーディオビジュアル車両追跡などの機能共起タスクとは異なり、IVD タスクは、単一のモダリティだけではラベルを決定できない補完的な機能に対処します。
この目的を達成するために、我々は、双方向の注意メカニズムを通じてオーディオとビジュアルの機能を統合する新しいネットワークである AVIVD-Net を提案します。
AVIVD-Net は、結合特徴空間を学習することで入力プロセスを合理化し、以前の方法の展開の複雑さを軽減します。
さらに、以前のデータセットよりも 7 倍大きい AVIVD データセットを導入し、IVD 問題を研究するためにはるかに多くの注釈付きサンプルを提供します。
私たちのモデルは、以前のアプローチと同等のパフォーマンスを達成し、自動展開に適しています。
さらに、特徴共起公開データセット MAVD [23] で AVIVDNet を評価することにより、自動運転車のビデオカメラ設定への拡張の可能性を実証します。
要約(オリジナル)
Idling vehicle detection (IVD) can be helpful in monitoring and reducing unnecessary idling and can be integrated into real-time systems to address the resulting pollution and harmful products. The previous approach [13], a non-end-to-end model, requires extra user clicks to specify a part of the input, making system deployment more error-prone or even not feasible. In contrast, we introduce an end-to-end joint audio-visual IVD task designed to detect vehicles visually under three states: moving, idling and engine off. Unlike feature co-occurrence task such as audio-visual vehicle tracking, our IVD task addresses complementary features, where labels cannot be determined by a single modality alone. To this end, we propose AVIVD-Net, a novel network that integrates audio and visual features through a bidirectional attention mechanism. AVIVD-Net streamlines the input process by learning a joint feature space, reducing the deployment complexity of previous methods. Additionally, we introduce the AVIVD dataset, which is seven times larger than previous datasets, offering significantly more annotated samples to study the IVD problem. Our model achieves performance comparable to prior approaches, making it suitable for automated deployment. Furthermore, by evaluating AVIVDNet on the feature co-occurrence public dataset MAVD [23], we demonstrate its potential for extension to self-driving vehicle video-camera setups.
arxiv情報
著者 | Xiwen Li,Rehman Mohammed,Tristalee Mangin,Surojit Saha,Ross T Whitaker,Kerry E. Kelly,Tolga Tasdizen |
発行日 | 2024-10-28 16:13:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google