Textual Query-Driven Mask Transformer for Domain Generalized Segmentation


この論文では、視覚言語モデルのテキスト埋め込みからのドメイン不変の意味論的知識を利用して、ドメイン一般化セマンティックセグメンテーション (DGSS) に取り組む方法を紹介します。
トランスフォーマーベースのセグメンテーション フレームワーク (テキスト オブジェクト クエリ) 内のオブジェクト クエリとしてテキスト埋め込みを使用します。
これらのクエリは、DGSS におけるピクセル グループ化のドメイン不変の基礎とみなされます。
テキスト オブジェクト クエリの力を活用するために、テキスト クエリ駆動マスク トランスフォーマー (tqdm) という新しいフレームワークを導入します。
私たちの tqdm の目的は、(1) ドメイン不変のセマンティクスを最大限にエンコードするテキスト オブジェクト クエリを生成すること、(2) 高密度の視覚的特徴のセマンティクスの明瞭さを高めることです。
さらに、視覚的特徴とテキスト的特徴を調整することで tqdm の有効性を向上させる 3 つの正則化損失を提案します。
私たちの方法を利用することで、モデルは対象クラスの固有の意味情報を理解でき、極端な領域(スケッチ スタイルなど)に一般化できるようになります。
私たちの tqdm は GTA5$\rightarrow$Cityscapes で 68.9 mIoU を達成し、以前の最先端の方法を 2.5 mIoU 上回りました。
プロジェクト ページは https://byanghyunpak.github.io/tqdm で利用できます。


In this paper, we introduce a method to tackle Domain Generalized Semantic Segmentation (DGSS) by utilizing domain-invariant semantic knowledge from text embeddings of vision-language models. We employ the text embeddings as object queries within a transformer-based segmentation framework (textual object queries). These queries are regarded as a domain-invariant basis for pixel grouping in DGSS. To leverage the power of textual object queries, we introduce a novel framework named the textual query-driven mask transformer (tqdm). Our tqdm aims to (1) generate textual object queries that maximally encode domain-invariant semantics and (2) enhance the semantic clarity of dense visual features. Additionally, we suggest three regularization losses to improve the efficacy of tqdm by aligning between visual and textual features. By utilizing our method, the model can comprehend inherent semantic information for classes of interest, enabling it to generalize to extreme domains (e.g., sketch style). Our tqdm achieves 68.9 mIoU on GTA5$\rightarrow$Cityscapes, outperforming the prior state-of-the-art method by 2.5 mIoU. The project page is available at https://byeonghyunpak.github.io/tqdm.


著者 Byeonghyun Pak,Byeongju Woo,Sunghwan Kim,Dae-hwan Kim,Hoseong Kim
発行日 2024-07-31 14:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク