要約
Co-salient Object Detection (CoSOD) は、画像の集合内で共通の物体と顕著な物体を認識する人間の視覚システムの能力を再現することを目的としています。
深層学習モデルの最近の進歩にもかかわらず、これらのモデルは依然として十分に注釈が付けられた CoSOD データセットを使用したトレーニングに依存しています。
トレーニング不要のゼロショット CoSOD フレームワークの探索は限られています。
このペーパーでは、基本的なコンピューター ビジョン モデルのゼロショット転送機能からインスピレーションを得て、トレーニング プロセスなしでこれらのモデルを活用する初のゼロショット CoSOD フレームワークを紹介します。
これを達成するために、提案するフレームワークにグループ プロンプト生成 (GPG) モジュールと共顕著性マップ生成 (CMP) モジュールという 2 つの新しいコンポーネントを導入します。
私たちは、広く使用されているデータセットでフレームワークのパフォーマンスを評価し、印象的な結果を観察しました。
私たちのアプローチは、既存の教師なし手法を上回り、2020 年以前に開発された完全教師あり手法をも上回るパフォーマンスを示し、同時に 2022 年以前に開発された一部の完全教師あり手法との競争力を維持しています。
要約(オリジナル)
Co-salient Object Detection (CoSOD) endeavors to replicate the human visual system’s capacity to recognize common and salient objects within a collection of images. Despite recent advancements in deep learning models, these models still rely on training with well-annotated CoSOD datasets. The exploration of training-free zero-shot CoSOD frameworks has been limited. In this paper, taking inspiration from the zero-shot transfer capabilities of foundational computer vision models, we introduce the first zero-shot CoSOD framework that harnesses these models without any training process. To achieve this, we introduce two novel components in our proposed framework: the group prompt generation (GPG) module and the co-saliency map generation (CMP) module. We evaluate the framework’s performance on widely-used datasets and observe impressive results. Our approach surpasses existing unsupervised methods and even outperforms fully supervised methods developed before 2020, while remaining competitive with some fully supervised methods developed before 2022.
arxiv情報
著者 | Haoke Xiao,Lv Tang,Bo Li,Zhiming Luo,Shaozi Li |
発行日 | 2023-09-11 14:42:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google