要約
テキスト-画像拡散モデルから得られる注意マップにおける視覚-テキスト相関は、例えば意味セグメンテーションのような高密度な視覚予測タスクに有益であることが証明されている。しかし、画像生成に使われる文脈の豊富な文章と、意味セグメンテーションで一般的に使われる孤立したクラス名との間の入力分布の不一致により、重大な課題が生じる。この不一致は、拡散モデルが正確な視覚-テキスト相関を捉えることを妨げる。この問題を解決するために、我々はInvSegを提案する。InvSegは、画像固有の視覚的コンテキストをテキストプロンプト埋め込み空間に反転させることで、オープンボキャブラリーセマンティックセグメンテーションに取り組むテストタイムプロンプト反転手法であり、拡散モデルの再構成プロセスから得られる構造情報を活用し、各クラスを構造整合マスクに関連付けるようにテキストプロンプトを豊かにする。具体的には、コントラストソフトクラスタリング(CSC)を導入することで、導出されたマスクを画像の構造情報と整合させ、各クラスのアンカーをソフトに選択し、重み付き距離を計算することで、クラス間のピクセルを分離しつつクラス内のピクセルを近づけることで、マスクの区別と内部の一貫性を確保する。サンプル固有のコンテキストを組み込むことで、InvSegは埋め込み空間においてコンテキストに富んだテキストプロンプトを学習し、モダリティを超えた正確なセマンティックアライメントを達成する。実験によれば、InvSegはPASCAL VOC、PASCAL Context、COCO Objectデータセットにおいて最先端の性能を達成した。
要約(オリジナル)
Visual-textual correlations in the attention maps derived from text-to-image diffusion models are proven beneficial to dense visual prediction tasks, e.g., semantic segmentation. However, a significant challenge arises due to the input distributional discrepancy between the context-rich sentences used for image generation and the isolated class names typically used in semantic segmentation. This discrepancy hinders diffusion models from capturing accurate visual-textual correlations. To solve this, we propose InvSeg, a test-time prompt inversion method that tackles open-vocabulary semantic segmentation by inverting image-specific visual context into text prompt embedding space, leveraging structure information derived from the diffusion model’s reconstruction process to enrich text prompts so as to associate each class with a structure-consistent mask. Specifically, we introduce Contrastive Soft Clustering (CSC) to align derived masks with the image’s structure information, softly selecting anchors for each class and calculating weighted distances to push inner-class pixels closer while separating inter-class pixels, thereby ensuring mask distinction and internal consistency. By incorporating sample-specific context, InvSeg learns context-rich text prompts in embedding space and achieves accurate semantic alignment across modalities. Experiments show that InvSeg achieves state-of-the-art performance on the PASCAL VOC, PASCAL Context and COCO Object datasets.
arxiv情報
著者 | Jiayi Lin,Jiabo Huang,Jian Hu,Shaogang Gong |
発行日 | 2025-01-03 18:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |