Where’s Waldo: Diffusion Features for Personalized Segmentation and Retrieval

要約

パーソナライズされた検索とセグメンテーションは、入力画像と参照インスタンスの短い説明に基づいて、データセット内の特定のインスタンスを見つけることを目的としています。
教師あり手法は効果的ですが、トレーニングには大量のラベル付きデータが必要です。
最近、自己教師あり基礎モデルがこれらのタスクに導入され、教師あり手法と同等の結果が示されました。
ただし、これらのモデルには明らかな重大な欠陥があります。同じクラス内の他のインスタンスが存在する場合、目的のインスタンスを見つけるのに苦労します。
このペーパーでは、これらのタスクのためのテキストから画像への拡散モデルを検討します。
具体的には、追加のトレーニングを行わずに、事前トレーニングされたテキストから画像へのモデルの中間特徴をパーソナライゼーションタスクに活用する、パーソナライズされた特徴拡散マッチングのための PDM と呼ばれる新しいアプローチを提案します。
PDM は、一般的な検索およびセグメンテーションのベンチマークで優れたパフォーマンスを示し、教師あり手法さえも上回ります。
また、現在のインスタンスとセグメンテーション データセットの顕著な欠点を強調し、これらのタスクに対する新しいベンチマークを提案します。

要約(オリジナル)

Personalized retrieval and segmentation aim to locate specific instances within a dataset based on an input image and a short description of the reference instance. While supervised methods are effective, they require extensive labeled data for training. Recently, self-supervised foundation models have been introduced to these tasks showing comparable results to supervised methods. However, a significant flaw in these models is evident: they struggle to locate a desired instance when other instances within the same class are presented. In this paper, we explore text-to-image diffusion models for these tasks. Specifically, we propose a novel approach called PDM for Personalized Features Diffusion Matching, that leverages intermediate features of pre-trained text-to-image models for personalization tasks without any additional training. PDM demonstrates superior performance on popular retrieval and segmentation benchmarks, outperforming even supervised methods. We also highlight notable shortcomings in current instance and segmentation datasets and propose new benchmarks for these tasks.

arxiv情報

著者 Dvir Samuel,Rami Ben-Ari,Matan Levy,Nir Darshan,Gal Chechik
発行日 2024-09-30 12:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク