Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning

要約

シーングラフ生成(SGG)は、画像中のオブジェクト間の視覚的関係を検出することを目的とした基本的なタスクである。一般的なSGGの手法は、全てのオブジェクトクラスが学習セットで与えられる必要がある。このような閉じた設定では、SGGの実用的な応用に限界がある。本論文では、オープンボキャブラリーシーングラフ生成を紹介する。これは、モデルは基本オブジェクトクラスの集合で学習されるが、未見のターゲットオブジェクトクラスに対する関係を推論することが要求される、新規で現実的かつ挑戦的な設定である。本論文では、粗視化された大量の領域キャプションデータに対して事前学習を行い、その後、2つのプロンプトベースの手法を利用して、事前学習したモデルのパラメータを更新することなく微調整を行う2段階の手法を提案する。さらに、本手法は、既存の手法では扱うことができない、全く未知のオブジェクトクラスに対する推論をサポートすることができる。Visual Genome、GQA、Open-Imageの3つのベンチマークデータセットに対する広範な実験において、本手法はOv-SGGの設定において、従来のClosed SGGと同様に最近の強力なSGG手法を著しく凌駕する性能を示した。

要約(オリジナル)

Scene graph generation (SGG) is a fundamental task aimed at detecting visual relations between objects in an image. The prevailing SGG methods require all object classes to be given in the training set. Such a closed setting limits the practical application of SGG. In this paper, we introduce open-vocabulary scene graph generation, a novel, realistic and challenging setting in which a model is trained on a set of base object classes but is required to infer relations for unseen target object classes. To this end, we propose a two-step method that firstly pre-trains on large amounts of coarse-grained region-caption data and then leverages two prompt-based techniques to finetune the pre-trained model without updating its parameters. Moreover, our method can support inference over completely unseen object classes, which existing methods are incapable of handling. On extensive experiments on three benchmark datasets, Visual Genome, GQA, and Open-Image, our method significantly outperforms recent, strong SGG methods on the setting of Ov-SGG, as well as on the conventional closed SGG.

arxiv情報

著者 Tao He,Lianli Gao,Jingkuan Song,Yuan-Fang Li
発行日 2022-09-07 08:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク