RLIP: Relational Language-Image Pre-training for Human-Object Interaction Detection

要約

ヒューマン オブジェクト インタラクション (HOI) 検出のタスクは、環境と対話する人間のきめ細かな視覚的解析を対象としており、幅広いアプリケーションを可能にします。
以前の研究では、より正確な HOI 検出のための効果的なアーキテクチャ設計と関連するキューの統合の利点が実証されています。
ただし、このタスクの適切な事前トレーニング戦略の設計は、既存のアプローチでは未調査のままです。
このギャップに対処するために、エンティティと関係の両方の説明を活用する対照的な事前トレーニングの戦略であるリレーショナル言語イメージ事前トレーニング (RLIP) を提案します。
このような事前トレーニングを効果的に利用するために、次の 3 つの技術的貢献を行っています。
(2) 各ミニバッチ内で利用可能な言語データの規模を拡大する合成データ生成フレームワーク、Label Sequence Extension。
(3) あいまいさを説明するメカニズム、関係品質ラベルおよび関係疑似ラベル。トレーニング前データのあいまい/ノイズの多いサンプルの影響を軽減します。
大規模な実験を通じて、RLIP-ParSeと総称されるこれらの貢献の利点を実証し、ゼロショット、少数ショット、および微調整HOI検出パフォーマンスを改善し、ノイズの多い注釈からの学習に対する堅牢性を向上させました。
コードは https://github.com/JacobYuan7/RLIP で入手できます。

要約(オリジナル)

The task of Human-Object Interaction (HOI) detection targets fine-grained visual parsing of humans interacting with their environment, enabling a broad range of applications. Prior work has demonstrated the benefits of effective architecture design and integration of relevant cues for more accurate HOI detection. However, the design of an appropriate pre-training strategy for this task remains underexplored by existing approaches. To address this gap, we propose Relational Language-Image Pre-training (RLIP), a strategy for contrastive pre-training that leverages both entity and relation descriptions. To make effective use of such pre-training, we make three technical contributions: (1) a new Parallel entity detection and Sequential relation inference (ParSe) architecture that enables the use of both entity and relation descriptions during holistically optimized pre-training; (2) a synthetic data generation framework, Label Sequence Extension, that expands the scale of language data available within each minibatch; (3) mechanisms to account for ambiguity, Relation Quality Labels and Relation Pseudo-Labels, to mitigate the influence of ambiguous/noisy samples in the pre-training data. Through extensive experiments, we demonstrate the benefits of these contributions, collectively termed RLIP-ParSe, for improved zero-shot, few-shot and fine-tuning HOI detection performance as well as increased robustness to learning from noisy annotations. Code will be available at https://github.com/JacobYuan7/RLIP.

arxiv情報

著者 Hangjie Yuan,Jianwen Jiang,Samuel Albanie,Tao Feng,Ziyuan Huang,Dong Ni,Mingqian Tang
発行日 2022-11-16 12:04:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク