要約
視覚的関係認識(VRR)のタスクは、画像中の2つの相互作用するオブジェクト間の関係を識別することを目的としており、トリプレットの硬度に基づく、拡散における新しい硬度認識コンポーネントを提案し、テールクラスの視覚的埋め込みを生成する硬度認識拡散の有効性を実証する。また、生成された視覚的埋め込み符号の識別能力を向上させる、拡散サンプリングのための新しい主語とオブジェクトに基づくシーディング戦略を提案する。GQA-LTデータセットを用いた広範な実験により、拡散補強されたサンプルを用いることで、被写体/オブジェクトとクラス毎の関係平均精度が向上することを示す。
要約(オリジナル)
The task of Visual Relationship Recognition (VRR) aims to identify relationships between two interacting objects in an image and is particularly challenging due to the widely-spread and highly imbalanced distribution of triplet and demonstrate the effectiveness of hardness-aware diffusion in generating visual embeddings for the tail classes. We also propose a novel subject and object based seeding strategy for diffusion sampling which improves the discriminative capability of the generated visual embeddings. Extensive experimentation on the GQA-LT dataset shows favorable gains in the subject/object and relation average per-class accuracy using Diffusion augmented samples.
arxiv情報
著者 | Parul Gupta,Tuan Nguyen,Abhinav Dhall,Munawar Hayat,Trung Le,Thanh-Toan Do |
発行日 | 2024-03-01 06:38:28+00:00 |
arxivサイト | arxiv_id(pdf) |