CREPE: Learnable Prompting With CLIP Improves Visual Relationship Prediction

要約

この論文では、視覚オブジェクトの関係を予測する際の視覚言語モデル (VLM)、特に CLIP の可能性を探ります。これには、画像の視覚的特徴を言語ベースの関係に解釈することが含まれます。
現在の最先端の方法では、言語の手がかりと視覚的特徴を利用する複雑なグラフィカル モデルを使用して、この課題に対処しています。
私たちは、CLIP 埋め込みの強力な言語事前分布によってこれらのグラフィカル モデルが簡素化され、より単純なアプローチが可能になるという仮説を立てています。
UVTransE 関係予測フレームワークを採用し、シーンからのサブジェクト、オブジェクト、およびユニオン ボックスの埋め込みとの並進埋め込みとして関係を学習します。
我々は、UVTransE フレームワーク内の CLIP ベースのサブジェクト、オブジェクト、およびユニオン ボックス表現の設計を体系的に検討し、CREPE (CLIP Representation Enhanced Predicate Estimation) を提案します。
CREPE は、3 つの境界ボックスすべてにテキストベースの表現を利用し、ユニオンボックスのテキストプロンプトを自動的に推測する新しい対照的なトレーニング戦略を導入します。
私たちのアプローチは、Visual Genome ベンチマークで述語推定で最先端のパフォーマンス、mR@5 27.79、mR@20 31.95 を達成し、最近の最先端の mR と比較して 15.3\% のパフォーマンス向上を達成しました。
@20。
この研究は、オブジェクト関係予測における CLIP の有効性を実証し、この困難な領域における VLM のさらなる研究を奨励します。

要約(オリジナル)

In this paper, we explore the potential of Vision-Language Models (VLMs), specifically CLIP, in predicting visual object relationships, which involves interpreting visual features from images into language-based relations. Current state-of-the-art methods use complex graphical models that utilize language cues and visual features to address this challenge. We hypothesize that the strong language priors in CLIP embeddings can simplify these graphical models paving for a simpler approach. We adopt the UVTransE relation prediction framework, which learns the relation as a translational embedding with subject, object, and union box embeddings from a scene. We systematically explore the design of CLIP-based subject, object, and union-box representations within the UVTransE framework and propose CREPE (CLIP Representation Enhanced Predicate Estimation). CREPE utilizes text-based representations for all three bounding boxes and introduces a novel contrastive training strategy to automatically infer the text prompt for union-box. Our approach achieves state-of-the-art performance in predicate estimation, mR@5 27.79, and mR@20 31.95 on the Visual Genome benchmark, achieving a 15.3\% gain in performance over recent state-of-the-art at mR@20. This work demonstrates CLIP’s effectiveness in object relation prediction and encourages further research on VLMs in this challenging domain.

arxiv情報

著者 Rakshith Subramanyam,T. S. Jayram,Rushil Anirudh,Jayaraman J. Thiagarajan
発行日 2023-07-19 15:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク