REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

要約

マルチモーダル大手言語モデル(MLLMS)は、メガスケールのデータセットでトレーニングした後、多様なビジョン言語タスク全体で堅牢なゼロショット機能を実証します。
ただし、セマンティックセグメンテーションやキーポイント検出などの密な予測タスクは、テキスト出力としてのみ表現される場合、MLLMに大きな課題をもたらします。
同時に、視覚的なタスクデコードに潜在的な埋め込みを利用する現在のMLLMは、一般に、マルチタスク学習とマルチ顆粒性シナリオの両方に限られた適応性を示しています。
この作業では、さまざまな視覚デコードタスクの統一トレーニングのためのエンドツーエンドのフレームワークであるREF-VLMを紹介します。
複雑な視覚デコードシナリオに対処するために、トリプレットベースの参照パラダイム(TRP)を導入します。これは、概念、デコードタイプ、ターゲットをトリプレット構造に介した視覚デコードタスクの3つの重要な次元を明示的に明らかにします。
TRPは、構造化された表現学習を実施するためにシンボリックデリミターを採用し、モデル出力の偏見と解釈可能性を高めます。
さらに、25のタスクタイプに1億を超えるマルチモーダルダイアログサンプルを含む大規模なマルチタスクデータセットであるデータセット(VTINSTRUCT)に従って、ビジュアルタスク命令を構築します。
VT-Instructには、テキスト入力と出力を超えて、ポイント、ボックス、落書き、マスクなどのさまざまな視覚プロンプトが組み込まれ、ボックス、キーポイント、深さ、マスクなどのテキストと視覚ユニットで構成される出力を生成します。
さまざまな視覚プロンプトと視覚ユニットの組み合わせにより、さまざまなタスクタイプが生成され、REF-VLMの適用性が大幅に拡大します。
定性的実験と定量的実験の両方で、REF-VLMがさまざまな標準ベンチマークで他のMLLMを上回ることを示しています。
https://github.com/macavityt/ref-vlmで入手可能なコード、データセット、およびデモ。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot capabilities across diverse vision-language tasks after training on mega-scale datasets. However, dense prediction tasks, such as semantic segmentation and keypoint detection, pose significant challenges for MLLMs when represented solely as text outputs. Simultaneously, current MLLMs utilizing latent embeddings for visual task decoding generally demonstrate limited adaptability to both multi-task learning and multi-granularity scenarios. In this work, we present REF-VLM, an end-to-end framework for unified training of various visual decoding tasks. To address complex visual decoding scenarios, we introduce the Triplet-Based Referring Paradigm (TRP), which explicitly decouples three critical dimensions in visual decoding tasks through a triplet structure: concepts, decoding types, and targets. TRP employs symbolic delimiters to enforce structured representation learning, enhancing the parsability and interpretability of model outputs. Additionally, we construct Visual-Task Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset containing over 100 million multimodal dialogue samples across 25 task types. Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts such as point, box, scribble, and mask, and generates outputs composed of text and visual units like box, keypoint, depth and mask. The combination of different visual prompts and visual units generates a wide variety of task types, expanding the applicability of REF-VLM significantly. Both qualitative and quantitative experiments demonstrate that our REF-VLM outperforms other MLLMs across a variety of standard benchmarks. The code, dataset, and demo available at https://github.com/MacavityT/REF-VLM.

arxiv情報

著者 Yan Tai,Luhao Zhu,Zhiqiang Chen,Ynan Ding,Yiying Dong,Xiaohong Liu,Guodong Guo
発行日 2025-03-10 14:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク