要約
この研究では、少数のラベル付きサンプルを使用して、目に見えないオブジェクトのさまざまな部分をセグメント化することを目的とした、少数ショット パーツ セグメンテーションのタスクに取り組みます。
強力な事前トレーニング済み画像言語モデル (CLIP など) のテキスト空間を活用すると、視覚的特徴を学習するのに有益であることがわかりました。
したがって、マルチモーダル学習に基づいた少数ショットのパーツセグメンテーションのための PartSeg と呼ばれる新しい方法を開発します。
具体的には、CLIP モデルが「パーツ」の概念をより深く理解し、そのテキスト空間を最大限に活用できるようにするパーツ固有のプロンプトを生成するパーツ認識プロンプト学習方法を設計します。
さらに、異なるオブジェクトカテゴリの下にある同じ部品という概念は一般的であるため、迅速な学習プロセス中にこれらの部品間の関係を確立します。
私たちは PartImageNet および Pascal$\_$Part データセットに対して広範な実験を実施し、実験結果は私たちの提案した方法が最先端のパフォーマンスを達成することを実証しました。
要約(オリジナル)
In this work, we address the task of few-shot part segmentation, which aims to segment the different parts of an unseen object using very few labeled examples. It is found that leveraging the textual space of a powerful pre-trained image-language model (such as CLIP) can be beneficial in learning visual features. Therefore, we develop a novel method termed PartSeg for few-shot part segmentation based on multimodal learning. Specifically, we design a part-aware prompt learning method to generate part-specific prompts that enable the CLIP model to better understand the concept of “part” and fully utilize its textual space. Furthermore, since the concept of the same part under different object categories is general, we establish relationships between these parts during the prompt learning process. We conduct extensive experiments on the PartImageNet and Pascal$\_$Part datasets, and the experimental results demonstrated that our proposed method achieves state-of-the-art performance.
arxiv情報
著者 | Mengya Han,Heliang Zheng,Chaoyue Wang,Yong Luo,Han Hu,Jing Zhang,Yonggang Wen |
発行日 | 2023-08-24 13:03:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google