Structural Information Guided Multimodal Pre-training for Vehicle-centric Perception

要約

画像内の車両を理解することは、インテリジェント交通機関や自動運転システムなどのさまざまなアプリケーションにとって重要です。
既存の車両中心の作業では、通常、大規模な分類データセットでモデルを事前トレーニングし、特定の下流タスクに合わせてモデルを微調整します。
ただし、さまざまなタスクにおける車両の知覚の特定の特性が無視されているため、最適なパフォーマンスが得られない可能性があります。
この問題に対処するために、我々は、VehicleMAEと呼ばれる新しい車両中心の事前トレーニングフレームワークを提案します。このフレームワークには、マスクされた車両の外観を効果的に再構築するために、車両プロファイル情報からの空間構造と有益な高レベル自然言語記述からの意味構造を含む構造情報が組み込まれています。

具体的には、車両のスケッチ線を空間構造として明示的に抽出し、車両再構成を導きます。
車両のイメージとテキストのペアと非ペアのサンプル間の類似性に基づいて CLIP ビッグ モデルから抽出されたより包括的な知識がさらに考慮され、車両をより深く理解できるようになります。
Autobot1M と呼ばれるモデルを事前トレーニングするために大規模なデータセットが構築されており、これには約 100 万枚の車両画像と 12,693 個のテキスト情報が含まれています。
4 つの車両ベースの下流タスクに関する広範な実験により、VehicleMAE の有効性が完全に検証されました。
ソース コードと事前トレーニングされたモデルは https://github.com/Event-AHU/VehicleMAE でリリースされます。

要約(オリジナル)

Understanding vehicles in images is important for various applications such as intelligent transportation and self-driving system. Existing vehicle-centric works typically pre-train models on large-scale classification datasets and then fine-tune them for specific downstream tasks. However, they neglect the specific characteristics of vehicle perception in different tasks and might thus lead to sub-optimal performance. To address this issue, we propose a novel vehicle-centric pre-training framework called VehicleMAE, which incorporates the structural information including the spatial structure from vehicle profile information and the semantic structure from informative high-level natural language descriptions for effective masked vehicle appearance reconstruction. To be specific, we explicitly extract the sketch lines of vehicles as a form of the spatial structure to guide vehicle reconstruction. The more comprehensive knowledge distilled from the CLIP big model based on the similarity between the paired/unpaired vehicle image-text sample is further taken into consideration to help achieve a better understanding of vehicles. A large-scale dataset is built to pre-train our model, termed Autobot1M, which contains about 1M vehicle images and 12693 text information. Extensive experiments on four vehicle-based downstream tasks fully validated the effectiveness of our VehicleMAE. The source code and pre-trained models will be released at https://github.com/Event-AHU/VehicleMAE.

arxiv情報

著者 Xiao Wang,Wentao Wu,Chenglong Li,Zhicheng Zhao,Zhe Chen,Yukai Shi,Jin Tang
発行日 2023-12-15 14:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク