SeMoLi: What Moves Together Belongs Together

要約

私たちは、モーションキューに基づいた半教師あり物体検出に取り組みます。
最近の結果は、オブジェクト トラッカーと組み合わせたヒューリスティック ベースのクラスタリング手法を使用して、移動するオブジェクトのインスタンスに疑似ラベルを付け、これらを監視信号として使用して、手動監視なしで LiDAR データ内の 3D オブジェクト検出器をトレーニングできることを示唆しています。
私たちはこのアプローチを再考し、物体検出と動きにインスピレーションを得た疑似ラベル付けの両方がデータ駆動型の方法で取り組めることを提案します。
私たちは、シーン フロー推定における最近の進歩を活用して点の軌跡を取得し、そこから長期のクラスに依存しない動きパターンを抽出します。
メッセージ パッシング ネットワークのコンテキストで相関クラスタリングを再検討すると、これらの動作パターンをグループ化して、オブジェクト インスタンスへのクラスタ ポイントを作成する方法を学びます。
物体の全範囲を推定することで、スキャンごとの 3D 境界ボックスを取得し、これを使用して Lidar 物体検出ネットワークを監視します。
私たちの方法は、以前のヒューリスティックベースのアプローチを上回る性能 (57.5 AP、以前の研究より +14 の改善) を上回っているだけでなく、さらに重要なことに、データセット全体で物体検出器を疑似ラベル付けしてトレーニングできることを示しています。

要約(オリジナル)

We tackle semi-supervised object detection based on motion cues. Recent results suggest that heuristic-based clustering methods in conjunction with object trackers can be used to pseudo-label instances of moving objects and use these as supervisory signals to train 3D object detectors in Lidar data without manual supervision. We re-think this approach and suggest that both, object detection, as well as motion-inspired pseudo-labeling, can be tackled in a data-driven manner. We leverage recent advances in scene flow estimation to obtain point trajectories from which we extract long-term, class-agnostic motion patterns. Revisiting correlation clustering in the context of message passing networks, we learn to group those motion patterns to cluster points to object instances. By estimating the full extent of the objects, we obtain per-scan 3D bounding boxes that we use to supervise a Lidar object detection network. Our method not only outperforms prior heuristic-based approaches (57.5 AP, +14 improvement over prior work), more importantly, we show we can pseudo-label and train object detectors across datasets.

arxiv情報

著者 Jenny Seidenschwarz,Aljoša Ošep,Francesco Ferroni,Simon Lucey,Laura Leal-Taixé
発行日 2024-02-29 18:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク