要約
自己教師あり特徴学習により、認識システムは世界中の車両によって記録された膨大な生データから恩恵を受けることができます。
ビデオレベルの自己教師あり学習アプローチは、分類タスクに関して強力な一般化可能性を示していますが、連続データから密な表現を学習する可能性は比較的未開発でした。
この研究では、知覚タスクの領域レベルの特徴表現を事前トレーニングするための時間順序付けプレテキスト タスクである TempO を提案します。
私たちは、物体検出または追跡システムにとって自然な表現である提案特徴ベクトルの順序付けされていないセットによって各フレームを埋め込み、複雑さが二次スケール未満であるトランスベースのマルチフレーム アーキテクチャでフレーム遷移確率を予測することによって順序付けを定式化します。
シーケンスの長さに関して。
BDD100K、nuImages、MOT17 データセットの広範な評価により、TempO 事前トレーニング アプローチが単一フレームの自己教師あり学習手法や教師あり転移学習の初期化戦略よりも優れたパフォーマンスを発揮し、物体検出と mAP で +0.7% の改善を達成したことが示されています。
複数オブジェクト追跡の HOTA スコアが +2.0%。
要約(オリジナル)
Self-supervised feature learning enables perception systems to benefit from the vast raw data recorded by vehicle fleets worldwide. While video-level self-supervised learning approaches have shown strong generalizability on classification tasks, the potential to learn dense representations from sequential data has been relatively unexplored. In this work, we propose TempO, a temporal ordering pretext task for pre-training region-level feature representations for perception tasks. We embed each frame by an unordered set of proposal feature vectors, a representation that is natural for object detection or tracking systems, and formulate the sequential ordering by predicting frame transition probabilities in a transformer-based multi-frame architecture whose complexity scales less than quadratic with respect to the sequence length. Extensive evaluations on the BDD100K, nuImages, and MOT17 datasets show that our TempO pre-training approach outperforms single-frame self-supervised learning methods as well as supervised transfer learning initialization strategies, achieving an improvement of +0.7% in mAP for object detection and +2.0% in the HOTA score for multi-object tracking.
arxiv情報
著者 | Christopher Lang,Alexander Braun,Lars Schillingmann,Karsten Haug,Abhinav Valada |
発行日 | 2023-11-08 18:57:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google