Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences

要約

自己教師あり特徴学習により、知覚システムは、世界中の車両によって記録されている膨大な量の生データから恩恵を受けることができます。
ただし、シーケンシャル データから密な表現を学習する可能性は比較的未調査です。
この作業では、TempO を提案します。これは、知覚タスクの領域レベルの特徴表現を事前トレーニングするための一時的な順序付けの口実タスクです。
インスタンスレベルの知覚アーキテクチャに自然な表現である提案特徴ベクトルの順序付けられていないセットによって各フレームを埋め込み、トランスフォーマーベースのマルチフレームアーキテクチャで特徴ベクトルのセット間の類似性を比較することにより、順次順序予測を定式化します。
BDD100K および MOT17 データセットの自動運転ドメインでの広範な評価により、当社の TempO アプローチが既存の自己教師あり単一フレーム事前トレーニング方法や、標準オブジェクト検出およびマルチオブジェクト追跡ベンチマークでの教師あり転送学習初期化戦略よりも優れていることが示されています。

要約(オリジナル)

Self-supervised feature learning enables perception systems to benefit from the vast amount of raw data being recorded by vehicle fleets all over the world. However, their potential to learn dense representations from sequential data has been relatively unexplored. In this work, we propose TempO, a temporal ordering pretext task for pre-training region-level feature representations for perception tasks. We embed each frame by an unordered set of proposal feature vectors, a representation that is natural for instance-level perception architectures, and formulate the sequential ordering prediction by comparing similarities between sets of feature vectors in a transformer-based multi-frame architecture. Extensive evaluation in automated driving domains on the BDD100K and MOT17 datasets shows that our TempO approach outperforms existing self-supervised single-frame pre-training methods as well as supervised transfer learning initialization strategies on standard object detection and multi-object tracking benchmarks.

arxiv情報

著者 Christopher Lang,Alexander Braun,Lars Schillingmann,Karsten Haug,Abhinav Valada
発行日 2023-02-17 18:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク