要約
自動運転車などの自律システムは、意思決定のために信頼性の高いセマンティック環境認識に依存しています。
ビデオのセマンティック セグメンテーションが大幅に進歩したにもかかわらず、既存のアプローチは重要な帰納的バイアスを無視しており、構造化された解釈可能な内部表現を欠いています。
この研究では、外部オブジェクトの動きも推定しながら、シーンのジオメトリとカメラのエゴモーションを推定するために自己教師ありの方法で学習する構造化フィルター モデルである MCDS-VSS を提案します。
私たちのモデルはこれらの表現を利用して、セマンティック セグメンテーションの時間的一貫性を、セグメンテーションの精度を犠牲にすることなく向上させます。
MCDS-VSS は予測融合アプローチに従います。このアプローチでは、最初にシーン ジオメトリとカメラのモーションを使用してエゴモーションを補償し、次に残差フローを使用して動的オブジェクトの動きを補償し、最後に予測されたシーンの特徴が現在の特徴と融合されます。
時間的に一貫したシーンのセグメンテーションを取得します。
私たちのモデルは、自動車シーンを、シーン ジオメトリ、エゴ モーション、オブジェクト モーションなど、複数の分離された解釈可能な表現に解析します。
定量的評価では、MCDS-VSS が競合するセグメンテーション パフォーマンスを維持しながら、ビデオ シーケンス上で優れた時間的一貫性を実現していることが示されています。
要約(オリジナル)
Autonomous systems, such as self-driving cars, rely on reliable semantic environment perception for decision making. Despite great advances in video semantic segmentation, existing approaches ignore important inductive biases and lack structured and interpretable internal representations. In this work, we propose MCDS-VSS, a structured filter model that learns in a self-supervised manner to estimate scene geometry and ego-motion of the camera, while also estimating the motion of external objects. Our model leverages these representations to improve the temporal consistency of semantic segmentation without sacrificing segmentation accuracy. MCDS-VSS follows a prediction-fusion approach in which scene geometry and camera motion are first used to compensate for ego-motion, then residual flow is used to compensate motion of dynamic objects, and finally the predicted scene features are fused with the current features to obtain a temporally consistent scene segmentation. Our model parses automotive scenes into multiple decoupled interpretable representations such as scene geometry, ego-motion, and object motion. Quantitative evaluation shows that MCDS-VSS achieves superior temporal consistency on video sequences while retaining competitive segmentation performance.
arxiv情報
著者 | Angel Villar-Corrales,Moritz Austermann,Sven Behnke |
発行日 | 2024-05-30 10:33:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google