Knowledge-augmented Few-shot Visual Relation Detection

要約

Visual Relation Detection (VRD) は、イメージを理解するためにオブジェクト間の関係を検出することを目的としています。
ほとんどの既存の VRD メソッドは、満足のいくパフォーマンスを達成するために、各関係の数千のトレーニング サンプルに依存しています。
最近のいくつかの論文では、精巧に設計されたパイプラインと事前にトレーニングされた単語ベクトルを使用した少数ショット学習によって、この問題に取り組んでいます。
ただし、既存の少数ショット VRD モデルのパフォーマンスは、視覚的な関係の膨大なセマンティックの多様性を処理するのに苦労しているため、一般化機能が不十分なために大幅に妨げられています。
それにもかかわらず、人間は、知識に基づいたほんの数例で新しい関係を学習する能力を持っています。
これに触発されて、テキスト知識と視覚的関係知識の両方を活用して、少数ショットVRDの一般化能力を向上させる、知識増強型少数ショットVRDフレームワークを考案しました。
テキスト知識と視覚的関係知識は、事前にトレーニングされた言語モデルと自動的に構築された視覚的関係知識グラフからそれぞれ取得されます。
私たちは、フレームワークの有効性を広範囲に検証します。
一般的に使用されている Visual Genome データセットの 3 つのベンチマークで実施された実験では、パフォーマンスが既存の最先端モデルを大幅に改善していることが示されています。

要約(オリジナル)

Visual Relation Detection (VRD) aims to detect relationships between objects for image understanding. Most existing VRD methods rely on thousands of training samples of each relationship to achieve satisfactory performance. Some recent papers tackle this problem by few-shot learning with elaborately designed pipelines and pre-trained word vectors. However, the performance of existing few-shot VRD models is severely hampered by the poor generalization capability, as they struggle to handle the vast semantic diversity of visual relationships. Nonetheless, humans have the ability to learn new relationships with just few examples based on their knowledge. Inspired by this, we devise a knowledge-augmented, few-shot VRD framework leveraging both textual knowledge and visual relation knowledge to improve the generalization ability of few-shot VRD. The textual knowledge and visual relation knowledge are acquired from a pre-trained language model and an automatically constructed visual relation knowledge graph, respectively. We extensively validate the effectiveness of our framework. Experiments conducted on three benchmarks from the commonly used Visual Genome dataset show that our performance surpasses existing state-of-the-art models with a large improvement.

arxiv情報

著者 Tianyu Yu,Yangning Li,Jiaoyan Chen,Yinghui Li,Hai-Tao Zheng,Xi Chen,Qingbin Liu,Wenqiang Liu,Dongxiao Huang,Bei Wu,Yexin Wang
発行日 2023-03-09 15:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク