Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning

要約

シーン グラフ生成 (SGG) は、画像内のオブジェクト間の視覚的な関係を検出することを目的とした基本的なタスクです。
一般的な SGG メソッドでは、すべてのオブジェクト クラスをトレーニング セットで指定する必要があります。
このような閉鎖的な設定は、SGG の実際の適用を制限します。
このホワイト ペーパーでは、オープン ボキャブラリー シーン グラフ生成を紹介します。これは、モデルが一連のベース オブジェクト クラスでトレーニングされるが、目に見えないターゲット オブジェクト クラスの関係を推測する必要がある、斬新で現実的でやりがいのある設定です。
この目的のために、最初に大量の粗粒度のリージョンキャプションデータで事前トレーニングし、次に2つのプロンプトベースの手法を活用して、事前トレーニング済みモデルをパラメーターを更新せずに微調整する2段階の方法を提案します。
さらに、私たちのメソッドは、既存のメソッドでは処理できない、まったく見えないオブジェクト クラスに対する推論をサポートできます。
Visual Genome、GQA、および Open-Image の 3 つのベンチマーク データセットに関する大規模な実験では、Ov-SGG の設定および従来のクローズド SGG での最近の強力な SGG メソッドよりも大幅に優れています。

要約(オリジナル)

Scene graph generation (SGG) is a fundamental task aimed at detecting visual relations between objects in an image. The prevailing SGG methods require all object classes to be given in the training set. Such a closed setting limits the practical application of SGG. In this paper, we introduce open-vocabulary scene graph generation, a novel, realistic and challenging setting in which a model is trained on a set of base object classes but is required to infer relations for unseen target object classes. To this end, we propose a two-step method that firstly pre-trains on large amounts of coarse-grained region-caption data and then leverages two prompt-based techniques to finetune the pre-trained model without updating its parameters. Moreover, our method can support inference over completely unseen object classes, which existing methods are incapable of handling. On extensive experiments on three benchmark datasets, Visual Genome, GQA, and Open-Image, our method significantly outperforms recent, strong SGG methods on the setting of Ov-SGG, as well as on the conventional closed SGG.

arxiv情報

著者 Tao He,Lianli Gao,Jingkuan Song,Yuan-Fang Li
発行日 2022-10-14 14:48:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク