Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline

要約

深層学習の最近の進歩により、特に画像とテキストを共有埋め込みスペースにマッピングする CLIP のようなモデルを通じて、コンテンツベースの検索方法が大幅に強化されました。
ただし、これらの方法は、特に特定の個人を識別する場合に、トレーニング データに含まれないドメイン固有のエンティティやロングテール概念に苦戦することがよくあります。
この論文では、自然言語クエリに基づいて特定のコンテキスト内の人物の画像を取得することを目的とした、アイデンティティを意識したクロスモーダル検索のタスクについて検討します。
このタスクは、パーソナライズされたビデオ コレクションや国営放送局が管理する大規模なオーディオビジュアル アーカイブの検索や閲覧など、さまざまなシナリオで重要です。
広く使用されている COCO データセットから派生し、VGGFace2 のディープフェイクで生成された顔で強化された、新しいデータセット COCO Person FaceSwap (COCO-PFS) を紹介します。
このデータセットは、このタスクのモデルのトレーニングと評価に必要な大規模なデータセットの不足に対処します。
私たちの実験では、ターゲットを絞った微調整を通じて競争力のある検索パフォーマンスを実現するアーキテクチャである Identity-aware CLIP (Id-CLIP) など、このタスクに再利用されたさまざまな CLIP バリエーションのパフォーマンスを評価します。
私たちの貢献は、ロングテール ID と文脈上のニュアンスを認識できる、より堅牢なクロスモーダル検索システムの基礎を築きます。
データとコードは https://github.com/mesnico/IdCLIP で入手できます。

要約(オリジナル)

Recent advancements in deep learning have significantly enhanced content-based retrieval methods, notably through models like CLIP that map images and texts into a shared embedding space. However, these methods often struggle with domain-specific entities and long-tail concepts absent from their training data, particularly in identifying specific individuals. In this paper, we explore the task of identity-aware cross-modal retrieval, which aims to retrieve images of persons in specific contexts based on natural language queries. This task is critical in various scenarios, such as for searching and browsing personalized video collections or large audio-visual archives maintained by national broadcasters. We introduce a novel dataset, COCO Person FaceSwap (COCO-PFS), derived from the widely used COCO dataset and enriched with deepfake-generated faces from VGGFace2. This dataset addresses the lack of large-scale datasets needed for training and evaluating models for this task. Our experiments assess the performance of different CLIP variations repurposed for this task, including our architecture, Identity-aware CLIP (Id-CLIP), which achieves competitive retrieval performance through targeted fine-tuning. Our contributions lay the groundwork for more robust cross-modal retrieval systems capable of recognizing long-tail identities and contextual nuances. Data and code are available at https://github.com/mesnico/IdCLIP.

arxiv情報

著者 Nicola Messina,Lucia Vadicamo,Leo Maltese,Claudio Gennaro
発行日 2024-12-30 15:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.MM パーマリンク