Pixel-Level Reasoning Segmentation via Multi-turn Conversations

要約

既存の視覚認識システムは、複雑で明示的なクエリの指示に依存して、一ターンダイアログでの地域レベルのセグメンテーションに焦点を当てています。
このようなシステムは、ピクセルレベルで推論することはできず、相互作用上で変化する動的なユーザーの意図を理解することはできません。
私たちの仕事は、マルチターン会話に基づいて、新しいタスクのセグメンテーション（ピクセルレベルのRS）を紹介することにより、この問題に取り組み、細粒セグメンテーションのためのマルチターンインタラクションを介して進化するユーザーの意図を追跡します。
この新しいタスクのベンチマークを確立するために、マルチターン会話（プリスト）に基づいてピクセルレベルの推論セグメンテーションデータセットを構築します。
プリストに基づいて、マルチターンインタラクティブな推論セグメンテーションフレームワークであるMIRASをさらに提案し、ピクセルレベルのセグメンテーションと堅牢なマルチターン会話理解を統合し、ユーザーの意図に合わせたピクセルグラウンドの説明を生成します。
プリストデータセットとmiRSAフレームワークは、ピクセルレベルの推論セグメンテーションのギャップを埋めます。
プリストデータセットの実験結果は、この方法がセグメンテーションとLLMベースの推論メトリックの観点から現在のセグメンテーション固有のベースラインよりも優れていることを示しています。
コードとデータは、https：//github.com/ccccai239/pixelristで入手できます。

要約(オリジナル)

Existing visual perception systems focus on region-level segmentation in single-turn dialogues, relying on complex and explicit query instructions. Such systems cannot reason at the pixel level and comprehend dynamic user intent that changes over interaction. Our work tackles this issue by introducing a novel task, Pixel-level Reasoning Segmentation (Pixel-level RS) based on multi-turn conversations, tracking evolving user intent via multi-turn interactions for fine-grained segmentation. To establish a benchmark for this novel task, we build a Pixel-level ReasonIng Segmentation Dataset Based on Multi-Turn Conversations (PRIST), comprising 24k utterances from 8.3k multi-turn conversational scenarios with segmentation targets. Building on PRIST, we further propose MIRAS, a Multi-turn Interactive ReAsoning Segmentation framework, integrates pixel-level segmentation with robust multi-turn conversation understanding, generating pixel-grounded explanations aligned with user intent. The PRIST dataset and MIRSA framework fill the gap in pixel-level reasoning segmentation. Experimental results on the PRIST dataset demonstrate that our method outperforms current segmentation-specific baselines in terms of segmentation and LLM-based reasoning metrics. The code and data are available at: https://github.com/ccccai239/PixelRIST.

arxiv情報

著者	Dexian Cai,Xiaocui Yang,Yongkang Liu,Daling Wang,Shi Feng,Yifei Zhang,Soujanya Poria
発行日	2025-02-13 16:16:54+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Pixel-Level Reasoning Segmentation via Multi-turn Conversations

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー