Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations

要約

推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいてオブジェクトをセグメント化する必要があるマルチモーダルビジョンテキストタスクであり、正確な視覚的知覚とビジョンテキストの推論機能の両方を要求します。
現在のRSアプローチは、知覚と推論の両方に対して微調整ビジョン言語モデル(VLM)に依存していますが、画像のトークン化は、オブジェクト間の連続的な空間的関係を根本的に混乱させます。
Dtwinsegerを紹介します。Dtwinsegerは、推論から知覚を切り離すための中間層としてデジタルツイン(DT)表現を活用する新しいRSアプローチです。
革新的には、DTWINSEGERはRSを2段階のプロセスとして再定式化します。最初のプロセスでは、画像を空間的関係とセマンティックプロパティを保存する構造化されたDT表現に変換し、大規模な言語モデル(LLM)を使用して、この表現を表現してターゲットオブジェクトを特定します。
DT表現を備えたLLMと、DT表現を備えたLLMの推論機能を強化するために、DT表現を備えたLLM専用の監視付き微調整方法を提案します。
実験では、この方法が2つの画像RSベンチマークとセグメンテーションベンチマークを参照する3つの画像で最先端のパフォーマンスを実現できることを示しています。
DT表現は、ビジョンとテキストの間の効果的なブリッジとして機能し、複雑なマルチモーダル推論タスクをLLMでのみ実現できるようになります。

要約(オリジナル)

Reasoning Segmentation (RS) is a multimodal vision-text task that requires segmenting objects based on implicit text queries, demanding both precise visual perception and vision-text reasoning capabilities. Current RS approaches rely on fine-tuning vision-language models (VLMs) for both perception and reasoning, but their tokenization of images fundamentally disrupts continuous spatial relationships between objects. We introduce DTwinSeger, a novel RS approach that leverages Digital Twin (DT) representation as an intermediate layer to decouple perception from reasoning. Innovatively, DTwinSeger reformulates RS as a two-stage process, where the first transforms the image into a structured DT representation that preserves spatial relationships and semantic properties and then employs a Large Language Model (LLM) to perform explicit reasoning over this representation to identify target objects. We propose a supervised fine-tuning method specifically for LLM with DT representation, together with a corresponding fine-tuning dataset Seg-DT, to enhance the LLM’s reasoning capabilities with DT representations. Experiments show that our method can achieve state-of-the-art performance on two image RS benchmarks and three image referring segmentation benchmarks. It yields that DT representation functions as an effective bridge between vision and text, enabling complex multimodal reasoning tasks to be accomplished solely with an LLM.

arxiv情報

著者 Yizhen Li,Dell Zhang,Xuelong Li,Yiqing Shen
発行日 2025-06-09 17:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク