Dense Monocular Motion Segmentation Using Optical Flow and Pseudo Depth Map: A Zero-Shot Approach

要約

単一の移動カメラからのモーション セグメンテーションは、コンピュータ ビジョンの分野において大きな課題となります。
この課題は、未知のカメラの動きとシーンの奥行き情報の欠如によってさらに悪化します。
ディープラーニングはこれらの問題に対処する上で優れた機能を示していますが、教師ありモデルでは大規模な注釈付きデータセットでの広範なトレーニングが必要であり、教師なしモデルでも大量の注釈なしデータでのトレーニングが必要であり、両方にとって大きな障壁となっています。
対照的に、オプティカル フローに基づく従来の方法ではトレーニング データは必要ありませんが、オブジェクト レベルの情報を取得できないことが多く、過剰セグメンテーションまたは過小セグメンテーションが発生します。
さらに、オプティカル フローに過度に依存するため、大幅な深度変化や非剛体モーションを伴う複雑なシーンでも苦労します。
これらの課題を克服するために、私たちは、ディープラーニング手法と従来のオプティカルフローベースの手法の両方の利点を活用して、トレーニングを必要とせずに密なモーションセグメンテーションを実行する革新的なハイブリッドアプローチを提案します。
私たちの方法は、基礎モデルを使用して各フレームのオブジェクト提案を自動的に生成することから始まります。
これらの提案は、オプティカル フローと相対深度マップの両方をモーション キューとして使用して、個別のモーション グループにクラスター化されます。
最先端の単眼奥行き推定モデルから導出された奥行きマップの統合により、特に動きの視差の問題の処理において、オプティカル フローによって提供される動きの手がかりが大幅に強化されます。
私たちの手法は DAVIS-Moving および YTVOS-Moving データセットで評価され、その結果は、私たちの手法が最良の教師なし手法を上回り、最新の教師あり手法とほぼ一致することを示しています。

要約(オリジナル)

Motion segmentation from a single moving camera presents a significant challenge in the field of computer vision. This challenge is compounded by the unknown camera movements and the lack of depth information of the scene. While deep learning has shown impressive capabilities in addressing these issues, supervised models require extensive training on massive annotated datasets, and unsupervised models also require training on large volumes of unannotated data, presenting significant barriers for both. In contrast, traditional methods based on optical flow do not require training data, however, they often fail to capture object-level information, leading to over-segmentation or under-segmentation. In addition, they also struggle in complex scenes with substantial depth variations and non-rigid motion, due to the overreliance of optical flow. To overcome these challenges, we propose an innovative hybrid approach that leverages the advantages of both deep learning methods and traditional optical flow based methods to perform dense motion segmentation without requiring any training. Our method initiates by automatically generating object proposals for each frame using foundation models. These proposals are then clustered into distinct motion groups using both optical flow and relative depth maps as motion cues. The integration of depth maps derived from state-of-the-art monocular depth estimation models significantly enhances the motion cues provided by optical flow, particularly in handling motion parallax issues. Our method is evaluated on the DAVIS-Moving and YTVOS-Moving datasets, and the results demonstrate that our method outperforms the best unsupervised method and closely matches with the state-of-theart supervised methods.

arxiv情報

著者 Yuxiang Huang,Yuhao Chen,John Zelek
発行日 2024-06-27 02:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク