SemanticFlow: A Self-Supervised Framework for Joint Scene Flow Prediction and Instance Segmentation in Dynamic Environments

要約

ダイナミックトラフィックシーンの正確な認識は、高レベルの自律運転システムにとって重要であり、堅牢なオブジェクトモーション推定とインスタンスセグメンテーションを必要とします。
ただし、従来の方法は、それらを個別のタスクとして扱うことが多く、最適ではないパフォーマンス、空間的矛盾、および情報共有がないための複雑なシナリオの非効率性につながります。
このホワイトペーパーでは、シーンの流れとインスタンスセグメンテーションを同時に予測するためのマルチタスクセマンティックフローフレームワークを提案します。
この作業の斬新さは3つあります。1)粗から洗練された予測ベースのマルチタスクスキームの開発。静的背景と動的オブジェクトの初期粗いセグメンテーションを使用して、共有機能処理モジュールを介してモーション情報とセマンティック情報を改良するためのコンテキスト情報を提供します。
2)シーンフローの推定とインスタンスセグメンテーションのパフォーマンスを強化するための一連の損失関数を開発するが、トラフィックシーン内の静的オブジェクトと動的オブジェクトの両方の空間的および時間的一貫性を確保するのに役立ちます。
3)粗いセグメンテーションを利用して剛体オブジェクトを検出し、シーケンシャルフレーム間で変換マトリックスを計算し、自己監視ラベルの生成を可能にする自己監視学習スキームを開発します。
提案されたフレームワークは、Argoverse and Waymoデータセットで検証されており、たとえばセグメンテーションの精度、シーンフロー推定、計算効率で優れたパフォーマンスを示し、動的なシーン理解における自己監視方法の新しいベンチマークを確立します。

要約(オリジナル)

Accurate perception of dynamic traffic scenes is crucial for high-level autonomous driving systems, requiring robust object motion estimation and instance segmentation. However, traditional methods often treat them as separate tasks, leading to suboptimal performance, spatio-temporal inconsistencies, and inefficiency in complex scenarios due to the absence of information sharing. This paper proposes a multi-task SemanticFlow framework to simultaneously predict scene flow and instance segmentation of full-resolution point clouds. The novelty of this work is threefold: 1) developing a coarse-to-fine prediction based multi-task scheme, where an initial coarse segmentation of static backgrounds and dynamic objects is used to provide contextual information for refining motion and semantic information through a shared feature processing module; 2) developing a set of loss functions to enhance the performance of scene flow estimation and instance segmentation, while can help ensure spatial and temporal consistency of both static and dynamic objects within traffic scenes; 3) developing a self-supervised learning scheme, which utilizes coarse segmentation to detect rigid objects and compute their transformation matrices between sequential frames, enabling the generation of self-supervised labels. The proposed framework is validated on the Argoverse and Waymo datasets, demonstrating superior performance in instance segmentation accuracy, scene flow estimation, and computational efficiency, establishing a new benchmark for self-supervised methods in dynamic scene understanding.

arxiv情報

著者 Yinqi Chen,Meiying Zhang,Qi Hao,Guang Zhou
発行日 2025-03-19 02:43:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク