MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking

要約

移動オブジェクトセグメンテーションは、動的な視覚環境を理解する上で重要な役割を果たします。
既存のメソッドは、移動オブジェクトを識別するためにマルチフレーム画像シーケンスに依存していますが、シングルイメージMOSは、モーション意図の予測やカメラフレームのドロップの取り扱いなどのアプリケーションにとって重要です。
ただし、単一の画像からの移動オブジェクトのセグメント化は、時間的キューがないため、既存の方法では困難なままです。
このギャップに対処するために、単一イメージの移動オブジェクトセグメンテーションの最初のフレームワークであるMovsamを提案します。
Movsamは、移動オブジェクトを検索し、セグメンテーションの深い思考に基づいてテキストプロンプトを生成するようにプロンプ​​トすることで強化されたマルチモーダル大手言語モデル(MLLM)を活用します。
これらのプロンプトは、セグメントAnything Model(SAM)およびVision-Language Model(VLM)の視覚的な機能と相互融合し、ロジック駆動型の移動オブジェクトセグメンテーションを可能にします。
次に、セグメンテーションの結果は深い思考の改良ループを受け、Movsamがシーンのコンテキストと論理的推論との客観的な関係の理解を繰り返し改善することができます。
この革新的なアプローチにより、Movsamはシーンの理解を考慮することにより、単一の画像の移動オブジェクトをセグメント化できます。
Movsamを現実世界に実装して、マルチフレームメソッドが失敗する自律運転シナリオの実用的なアプリケーションと有効性を検証します。
さらに、一時的な情報を利用する際のマルチフレームメソッドの固有の利点にもかかわらず、Movsamは公共のMOSベンチマーク全体で最先端のパフォーマンスを達成し、J \&Fで92.5 \%に達します。
実装はhttps://github.com/irmvlab/movsamで入手できます。

要約(オリジナル)

Moving object segmentation plays a vital role in understanding dynamic visual environments. While existing methods rely on multi-frame image sequences to identify moving objects, single-image MOS is critical for applications like motion intention prediction and handling camera frame drops. However, segmenting moving objects from a single image remains challenging for existing methods due to the absence of temporal cues. To address this gap, we propose MovSAM, the first framework for single-image moving object segmentation. MovSAM leverages a Multimodal Large Language Model (MLLM) enhanced with Chain-of-Thought (CoT) prompting to search the moving object and generate text prompts based on deep thinking for segmentation. These prompts are cross-fused with visual features from the Segment Anything Model (SAM) and a Vision-Language Model (VLM), enabling logic-driven moving object segmentation. The segmentation results then undergo a deep thinking refinement loop, allowing MovSAM to iteratively improve its understanding of the scene context and inter-object relationships with logical reasoning. This innovative approach enables MovSAM to segment moving objects in single images by considering scene understanding. We implement MovSAM in the real world to validate its practical application and effectiveness for autonomous driving scenarios where the multi-frame methods fail. Furthermore, despite the inherent advantage of multi-frame methods in utilizing temporal information, MovSAM achieves state-of-the-art performance across public MOS benchmarks, reaching 92.5\% on J\&F. Our implementation will be available at https://github.com/IRMVLab/MovSAM.

arxiv情報

著者 Chang Nie,Yiqing Xu,Guangming Wang,Zhe Liu,Yanzi Miao,Hesheng Wang
発行日 2025-04-09 13:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク