Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

要約

マルチモーダル大手言語モデル(MLLM)は、きめ細かいピクセルレベルの理解タスクの顕著なパフォーマンスを実現します。
ただし、すべての作業は、Visionエンコーダー(クリップ)、セグメンテーションの専門家などの追加のコンポーネントに大きく依存しており、システムの複雑さが高く、モデルのスケーリングを制限しています。
この作業では、私たちの目標は、追加のコンポーネントを導入することなく、高度に単純化されたMLLMを探索することです。
私たちの作品は、統一されたビジョン言語モデル(SAIL)デザインとしてのシングルトランスに関する最近の作品によって動機付けられています。これらの作業は、変圧器のビジョントークンとテキストトークンを共同で学習します。
ピクセルごとのMLLMタスク用の単一の変圧器であるPixel-Sailを提示します。
特に、プレーンベースラインで3つの技術的改善を提示します。
まず、視覚的なトークン機能を改良するために、学習可能なアップサンプリングモジュールを設計します。
第二に、単一の変圧器が視覚的な迅速な入力を理解し、視覚的なプロンプトの埋め込みとビジョントークンの早期融合から利益を得ることができるようにする新しい視覚的な促進噴射戦略を提案します。
第三に、ビジョンの専門家蒸留戦略を導入して、単一の変圧器の微細な特徴抽出能力を効率的に強化します。
さらに、手動チェックを使用して、包括的なピクセル理解ベンチマーク(パーベンチ)を収集しました。
3つのタスクが含まれています。詳細なオブジェクト説明、視覚的なプロンプトベースの質問応答、視覚テキスト参照セグメンテーション。
4つの参照セグメンテーションベンチマーク、1つの視覚的なプロンプトベンチマーク、およびパーベンチでの広範な実験は、ピクセルセールがよりシンプルなパイプラインで同等またはさらに良い結果を達成することを示しています。
コードとモデルはhttps://github.com/magic-research/sa2vaでリリースされます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) achieve remarkable performance for fine-grained pixel-level understanding tasks. However, all the works rely heavily on extra components, such as vision encoder (CLIP), segmentation experts, leading to high system complexity and limiting model scaling. In this work, our goal is to explore a highly simplified MLLM without introducing extra components. Our work is motivated by the recent works on Single trAnsformer as a unified vIsion-Language Model (SAIL) design, where these works jointly learn vision tokens and text tokens in transformers. We present Pixel-SAIL, a single transformer for pixel-wise MLLM tasks. In particular, we present three technical improvements on the plain baseline. First, we design a learnable upsampling module to refine visual token features. Secondly, we propose a novel visual prompt injection strategy to enable the single transformer to understand visual prompt inputs and benefit from the early fusion of visual prompt embeddings and vision tokens. Thirdly, we introduce a vision expert distillation strategy to efficiently enhance the single transformer’s fine-grained feature extraction capability. In addition, we have collected a comprehensive pixel understanding benchmark (PerBench), using a manual check. It includes three tasks: detailed object description, visual prompt-based question answering, and visual-text referring segmentation. Extensive experiments on four referring segmentation benchmarks, one visual prompt benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or even better results with a much simpler pipeline. Code and model will be released at https://github.com/magic-research/Sa2VA.

arxiv情報

著者 Tao Zhang,Xiangtai Li,Zilong Huang,Yanwei Li,Weixian Lei,Xueqing Deng,Shihao Chen,Shunping Ji,Jiashi Feng
発行日 2025-04-14 17:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク