PixelThink: Towards Efficient Chain-of-Pixel Reasoning

要約

既存の推論セグメンテーションアプローチは、通常、画像テキストペアと対応するマスクラベルを使用して、マルチモーダル大手言語モデル(MLLMS)を微調整します。
ただし、明示的な推論プロセスなしに、分散型のシナリオに限られた一般化を示します。
最近の取り組みは、推論能力を高めるためにグループ相関政策最適化(GRPO)を通じて強化学習を活用していますが、しばしば考え過ぎに苦しみます。
これにより、計算コストが上昇し、推論品質に対する制御が制限されます。
この問題に対処するために、Pixelthinkを提案します。PixelThinkは、外部で推定されたタスクの難易度と内部的に測定されたモデルの不確実性を統合して、強化学習パラダイム内の推論生成を調節するシンプルで効果的なスキームです。
このモデルは、シーンの複雑さと予測的信頼度に従って、推論長を圧縮することを学びます。
包括的な評価をサポートするために、注釈付きの推論参照と難易度スコアを備えた拡張ベンチマークであるReasonSeg-diffと、セグメンテーションの精度、推論品質、効率を共同で評価するために設計された一連のメトリックを紹介します。
実験結果は、提案されたアプローチが推論効率と全体的なセグメンテーションパフォーマンスの両方を改善することを示しています。
私たちの仕事は、効率的で解釈可能なマルチモーダルの理解に向けた新しい視点に貢献しています。
コードとモデルは公開されます。

要約(オリジナル)

Existing reasoning segmentation approaches typically fine-tune multimodal large language models (MLLMs) using image-text pairs and corresponding mask labels. However, they exhibit limited generalization to out-of-distribution scenarios without an explicit reasoning process. Although recent efforts leverage reinforcement learning through group-relative policy optimization (GRPO) to enhance reasoning ability, they often suffer from overthinking – producing uniformly verbose reasoning chains irrespective of task complexity. This results in elevated computational costs and limited control over reasoning quality. To address this problem, we propose PixelThink, a simple yet effective scheme that integrates externally estimated task difficulty and internally measured model uncertainty to regulate reasoning generation within a reinforcement learning paradigm. The model learns to compress reasoning length in accordance with scene complexity and predictive confidence. To support comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark with annotated reasoning references and difficulty scores, along with a suite of metrics designed to assess segmentation accuracy, reasoning quality, and efficiency jointly. Experimental results demonstrate that the proposed approach improves both reasoning efficiency and overall segmentation performance. Our work contributes novel perspectives towards efficient and interpretable multimodal understanding. The code and model will be publicly available.

arxiv情報

著者 Song Wang,Gongfan Fang,Lingdong Kong,Xiangtai Li,Jianyun Xu,Sheng Yang,Qiang Li,Jianke Zhu,Xinchao Wang
発行日 2025-05-29 17:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク