OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning

要約

オープンボキャブラリーセグメンテーション(OVS)は、事前定義されたカテゴリを超えてセグメンテーションを一般化する能力に注目を集めています。
ただし、既存の方法は通常、単純な前方推論を伴うセグメンテーションマスクを予測し、明示的な推論と解釈可能性を欠いています。
これにより、OVSモデルが、文脈上の理解と識別的な視覚的キューがないため、オープンワールド設定で同様のカテゴリを区別することが困難になります。
この制限に対処するために、Openseg-Rという名前のオープンボキャブラリーセグメンテーションのための段階的な視覚的推論フレームワークを提案します。
提案されたOpenseg-Rは、大規模なマルチモーダルモデル(LMM)を活用して、セグメンテーション前に階層的な視覚的推論を実行します。
具体的には、各画像に対して一般的なおよび画像固有の推論の両方を生成し、粗から金融の方法でオブジェクトの視覚的理由を説明する構造化されたトリプレットを形成します。
これらの推論ステップに基づいて、詳細な説明プロンプトを作成し、セグメント装置にフィードして、より正確なセグメンテーションマスクを作成できます。
私たちの知る限り、Openseg-Rは、OVSに明示的な段階的な視覚的推論を導入する最初のフレームワークです。
実験結果は、Openseg-Rが5つのベンチマークデータセットにわたるオープンボキャブラリーセマンティックセグメンテーションの最先端の方法を大幅に上回ることを示しています。
さらに、オープンボキャブラリーパノプティックセグメンテーションのすべてのメトリックにわたって一貫した利益を達成します。
定性的な結果は、セグメンテーションの精度と解釈可能性の両方を改善する上で、推論ガイド付きフレームワークの有効性をさらに強調しています。
私たちのコードは、https://github.com/hanzy1996/openseg-rで公開されています。

要約(オリジナル)

Open-Vocabulary Segmentation (OVS) has drawn increasing attention for its capacity to generalize segmentation beyond predefined categories. However, existing methods typically predict segmentation masks with simple forward inference, lacking explicit reasoning and interpretability. This makes it challenging for OVS model to distinguish similar categories in open-world settings due to the lack of contextual understanding and discriminative visual cues. To address this limitation, we propose a step-by-step visual reasoning framework for open-vocabulary segmentation, named OpenSeg-R. The proposed OpenSeg-R leverages Large Multimodal Models (LMMs) to perform hierarchical visual reasoning before segmentation. Specifically, we generate both generic and image-specific reasoning for each image, forming structured triplets that explain the visual reason for objects in a coarse-to-fine manner. Based on these reasoning steps, we can compose detailed description prompts, and feed them to the segmentor to produce more accurate segmentation masks. To the best of our knowledge, OpenSeg-R is the first framework to introduce explicit step-by-step visual reasoning into OVS. Experimental results demonstrate that OpenSeg-R significantly outperforms state-of-the-art methods on open-vocabulary semantic segmentation across five benchmark datasets. Moreover, it achieves consistent gains across all metrics on open-vocabulary panoptic segmentation. Qualitative results further highlight the effectiveness of our reasoning-guided framework in improving both segmentation precision and interpretability. Our code is publicly available at https://github.com/Hanzy1996/OpenSeg-R.

arxiv情報

著者 Zongyan Han,Jiale Cao,Shuo Chen,Tong Wang,Jorma Laaksonen,Rao Muhammad Anwer
発行日 2025-05-22 17:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク