要約
インコンテキストセグメンテーションは、ビジョン基盤モデルの導入によりさらに注目を集めています。
既存のアプローチのほとんどは、視覚的プロンプトと入力画像クエリの間の相関関係を構築するために、メトリック学習またはマスクされた画像モデリングを採用しています。
この研究では、代表的な世代モデルの 1 つである潜在拡散モデル (LDM) を使用して、この問題を新しい視点から調査します。
拡散モデルでは生成とセグメンテーションの間にタスクのギャップが観察されますが、LDM は依然としてコンテキスト内セグメンテーションにとって効果的なミニマリストです。
特に、2 つのメタアーキテクチャを提案し、それに応じていくつかの出力調整および最適化戦略を設計します。
私たちは包括的なアブレーション研究を実施し、セグメンテーションの品質は出力の位置合わせとコンテキスト内の指示に依存することを経験的に発見しました。
さらに、画像とビデオの両方のデータセットを含む、新しく公平なコンテキスト内セグメンテーション ベンチマークを構築します。
実験では、私たちのアプローチの効率性を検証し、以前の専門家モデルや視覚的基盤モデルと同等またはさらに強力な結果を実証します。
私たちの研究は、LDM が困難なコンテキスト内セグメンテーション タスクでも十分な結果を達成できることを示しています。
要約(オリジナル)
In-context segmentation has drawn more attention with the introduction of vision foundation models. Most existing approaches adopt metric learning or masked image modeling to build the correlation between visual prompts and input image queries. In this work, we explore this problem from a new perspective, using one representative generation model, the latent diffusion model (LDM). We observe a task gap between generation and segmentation in diffusion models, but LDM is still an effective minimalist for in-context segmentation. In particular, we propose two meta-architectures and correspondingly design several output alignment and optimization strategies. We have conducted comprehensive ablation studies and empirically found that the segmentation quality counts on output alignment and in-context instructions. Moreover, we build a new and fair in-context segmentation benchmark that includes both image and video datasets. Experiments validate the efficiency of our approach, demonstrating comparable or even stronger results than previous specialist models or visual foundation models. Our study shows that LDMs can also achieve good enough results for challenging in-context segmentation tasks.
arxiv情報
著者 | Chaoyang Wang,Xiangtai Li,Henghui Ding,Lu Qi,Jiangning Zhang,Yunhai Tong,Chen Change Loy,Shuicheng Yan |
発行日 | 2024-03-14 17:52:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google