DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition

要約

視覚的関係認識(VRR)のタスクは、画像中の2つの相互作用するオブジェクト間の関係を識別することを目的としており、のトリプレットが広く分布し、非常に不均衡であるため、特に困難である。既存のVRRアプローチにおける性能の偏りを克服するために、我々はDiffAugmentを導入する。DiffAugmentは、まずWordNetを利用することで言語空間のテールクラスを拡張し、次に拡散モデルの生成能力を利用して少数クラスの視覚空間を拡張する手法である。各トリプレットの硬度に基づく、拡散における新しい硬度認識コンポーネントを提案し、テールクラスの視覚的埋め込みを生成する硬度認識拡散の有効性を実証する。また、生成された視覚的埋め込み符号の識別能力を向上させる、拡散サンプリングのための新しい主語とオブジェクトに基づくシーディング戦略を提案する。GQA-LTデータセットを用いた広範な実験により、拡散補強されたサンプルを用いることで、被写体/オブジェクトとクラス毎の関係平均精度が向上することを示す。

要約(オリジナル)

The task of Visual Relationship Recognition (VRR) aims to identify relationships between two interacting objects in an image and is particularly challenging due to the widely-spread and highly imbalanced distribution of triplets. To overcome the resultant performance bias in existing VRR approaches, we introduce DiffAugment — a method which first augments the tail classes in the linguistic space by making use of WordNet and then utilizes the generative prowess of Diffusion Models to expand the visual space for minority classes. We propose a novel hardness-aware component in diffusion which is based upon the hardness of each triplet and demonstrate the effectiveness of hardness-aware diffusion in generating visual embeddings for the tail classes. We also propose a novel subject and object based seeding strategy for diffusion sampling which improves the discriminative capability of the generated visual embeddings. Extensive experimentation on the GQA-LT dataset shows favorable gains in the subject/object and relation average per-class accuracy using Diffusion augmented samples.

arxiv情報

著者 Parul Gupta,Tuan Nguyen,Abhinav Dhall,Munawar Hayat,Trung Le,Thanh-Toan Do
発行日 2024-03-01 06:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク