RLIPv2: Fast Scaling of Relational Language-Image Pre-training

要約

リレーショナル言語イメージ事前トレーニング (RLIP) は、ビジョン表現をリレーショナル テキストと一致させ、それによってコンピューター ビジョン タスクにおけるリレーショナル推論の能力を向上させることを目的としています。
ただし、RLIPv1 アーキテクチャの収束が遅いことと、既存のシーン グラフ データの利用可能性が限られていることが妨げとなり、RLIPv1 のスケーリングは困難です。
この論文では、リレーショナル事前トレーニングを大規模な擬似ラベル付きシーン グラフ データにスケーリングできる高速収束モデルである RLIPv2 を提案します。
高速スケーリングを可能にするために、RLIPv2 には非対称言語画像融合 (ALIF) が導入されています。これは、スパース化された言語エンコード層とのより早期かつより深いゲート型クロスモーダル融合を促進するメカニズムです。
ALIF は、事前トレーニングと微調整にかかる時間のうち、RLIPv1 と同等以上のパフォーマンスを実現します。
大規模なシーン グラフ データを取得するために、キャプション (BLIP など) と設計されたリレーション タガーを導入することで、自由形式のリレーション ラベルを使用してオブジェクト検出データセットを拡張します。
Relation Tagger は、BLIP で生成されたリレーション テキストを領域ペアに割り当てるため、大規模なリレーショナル事前トレーニングが可能になります。
人間とオブジェクトのインタラクション検出とシーン グラフ生成に関して行われた広範な実験を通じて、RLIPv2 は、完全に微調整された少数ショットおよびゼロショット設定の下で 3 つのベンチマークで最先端のパフォーマンスを示しました。
特に、最大の RLIPv2 は、微調整なしで HICO-DET で 23.29mAP を達成し、わずか 1% のデータで 32.22mAP、100% のデータで 45.09mAP を生成します。
コードとモデルは https://github.com/JacobYuan7/RLIPv2 で公開されています。

要約(オリジナル)

Relational Language-Image Pre-training (RLIP) aims to align vision representations with relational texts, thereby advancing the capability of relational reasoning in computer vision tasks. However, hindered by the slow convergence of RLIPv1 architecture and the limited availability of existing scene graph data, scaling RLIPv1 is challenging. In this paper, we propose RLIPv2, a fast converging model that enables the scaling of relational pre-training to large-scale pseudo-labelled scene graph data. To enable fast scaling, RLIPv2 introduces Asymmetric Language-Image Fusion (ALIF), a mechanism that facilitates earlier and deeper gated cross-modal fusion with sparsified language encoding layers. ALIF leads to comparable or better performance than RLIPv1 in a fraction of the time for pre-training and fine-tuning. To obtain scene graph data at scale, we extend object detection datasets with free-form relation labels by introducing a captioner (e.g., BLIP) and a designed Relation Tagger. The Relation Tagger assigns BLIP-generated relation texts to region pairs, thus enabling larger-scale relational pre-training. Through extensive experiments conducted on Human-Object Interaction Detection and Scene Graph Generation, RLIPv2 shows state-of-the-art performance on three benchmarks under fully-finetuning, few-shot and zero-shot settings. Notably, the largest RLIPv2 achieves 23.29mAP on HICO-DET without any fine-tuning, yields 32.22mAP with just 1% data and yields 45.09mAP with 100% data. Code and models are publicly available at https://github.com/JacobYuan7/RLIPv2.

arxiv情報

著者 Hangjie Yuan,Shiwei Zhang,Xiang Wang,Samuel Albanie,Yining Pan,Tao Feng,Jianwen Jiang,Dong Ni,Yingya Zhang,Deli Zhao
発行日 2023-08-18 07:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク