要約
ジェネラリストモデルは、言語とビジョンの両方のタスクで顕著な成功を収めており、統一されたモデリングの可能性を示しています。
ただし、これらのモデルへの検出やセグメンテーションなどの細かい知覚タスクを効果的に統合することは、依然として重要な課題です。
これは主に、これらのタスクがモデリングプロセスを複雑にすることができるタスク固有の設計とアーキテクチャに大きく依存することが多いためです。
この課題に対処するために、\ textbf {u}が\ textbf {f} ine-grainedの視覚知覚タスクを\ textbf {o}ペンエンド言語インターフェイスを介してnifies \ textbf {f} ine-greainsの視覚知覚タスクを提示します。
すべての知覚ターゲットを言語空間に変換することにより、\私たちはオブジェクトレベルの検出、ピクセルレベルのセグメンテーション、および画像レベルのビジョン言語タスクを単一のモデルに統合します。
さらに、セグメンテーションタスクをサポートするために言語インターフェイスのみに依存する新しい埋め込み検索アプローチを紹介します。
私たちのフレームワークは、きめ細かい知覚とビジョン言語のタスクの間のギャップを橋渡しし、複雑なタスク固有のデザインを備えた方法と同等または優れたパフォーマンスを達成しながら、建築設計とトレーニング戦略を大幅に簡素化します。
5つの標準的な視覚認識データセットに関するマルチタスクトレーニングの後、\私たちは、COCOインスタンスセグメンテーションの12.3マップ、ADE20Kセマンティックセグメンテーションで3.3 MIOUにより、以前の最先端のジェネラリストモデルを上回ります。
さらに、私たちの方法は、既存のMLLMとシームレスに統合され、きめの細かい知覚能力と高度な言語能力を効果的に組み合わせることで、推論セグメンテーションなどのより挑戦的なタスクを可能にします。
コードとモデルはhttps://github.com/nnnth/ufoで入手できます。
要約(オリジナル)
Generalist models have achieved remarkable success in both language and vision-language tasks, showcasing the potential of unified modeling. However, effectively integrating fine-grained perception tasks like detection and segmentation into these models remains a significant challenge. This is primarily because these tasks often rely heavily on task-specific designs and architectures that can complicate the modeling process. To address this challenge, we present \ours, a framework that \textbf{U}nifies \textbf{F}ine-grained visual perception tasks through an \textbf{O}pen-ended language interface. By transforming all perception targets into the language space, \ours unifies object-level detection, pixel-level segmentation, and image-level vision-language tasks into a single model. Additionally, we introduce a novel embedding retrieval approach that relies solely on the language interface to support segmentation tasks. Our framework bridges the gap between fine-grained perception and vision-language tasks, significantly simplifying architectural design and training strategies while achieving comparable or superior performance to methods with intricate task-specific designs. After multi-task training on five standard visual perception datasets, \ours outperforms the previous state-of-the-art generalist models by 12.3 mAP on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation. Furthermore, our method seamlessly integrates with existing MLLMs, effectively combining fine-grained perception capabilities with their advanced language abilities, thereby enabling more challenging tasks such as reasoning segmentation. Code and models are available at https://github.com/nnnth/UFO.
arxiv情報
著者 | Hao Tang,Chenwei Xie,Haiyang Wang,Xiaoyi Bao,Tingyu Weng,Pandeng Li,Yun Zheng,Liwei Wang |
発行日 | 2025-03-04 15:36:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google