要約
弱教師ありシーングラフ生成 (WSSGG) 研究は、コストのかかるアノテーションに大きく依存する完全教師ありアプローチの代替手段として最近登場しました。
これに関して、WSSGG に関する研究では、画像キャプションを利用して非局在化トリプレットを取得し、主に画像領域上で非局在化トリプレットを接地することに重点を置いています。
しかし、彼らは、キャプションからのトリプレットの形成プロセスに含まれる 2 つの問題を見落としています。 1) キャプションからトリプレットを抽出するときに意味論的な過度の単純化の問題が発生します。キャプション内の粒度の細かい述語が望ましくない粒度の粗い述語に変換され、その結果、
長い尾の述語分布、および 2) キャプション内のトリプレットを対象のエンティティ/述語クラスと位置合わせするときに、低密度シーン グラフの問題が発生します。この場合、多くのトリプレットが破棄され、トレーニングに使用されず、不十分な監視につながります。
この 2 つの問題に取り組むために、私たちは新しいアプローチ、すなわち弱教師あり SGG 用大規模言語モデル (LLM4SGG) を提案します。このアプローチでは、LLM の言語に関する深い理解とトリプレットの抽出中の推論能力を活用することで 2 つの問題を軽減します。
キャプションおよびエンティティ/述語クラスとターゲット データの位置合わせから。
LLM をこれらのプロセスにさらに関与させるために、思考連鎖の考え方とコンテキスト内の少数ショット学習戦略を採用します。
LLM4SGG の有効性を検証するために、Visual Genome および GQA データセットで広範な実験を実施し、最先端の WSSGG 手法と比較して Recall@K と平均 Recall@K の両方で大幅な改善が示されました。
さらに魅力的なのは、LLM4SGG はデータ効率が高く、少量のトレーニング画像で効果的なモデルトレーニングを可能にすることです。
要約(オリジナル)
Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM’s in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images.
arxiv情報
著者 | Kibum Kim,Kanghoon Yoon,Jaehyeong Jeon,Yeonjun In,Jinyoung Moon,Donghyun Kim,Chanyoung Park |
発行日 | 2024-03-21 12:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google