Dynamic Relation Inference via Verb Embeddings

要約

Clipは、対照的な学習タスクに関するトレーニングにより、例外的な画像テキストマッチング機能を実証しています。
過去の研究では、テキストを画像内のオブジェクトと一致させるだけでマッチングを実現できる場合、クリップはテキストと画像に効果的に一致しますが、マッチングが画像内のオブジェクト間の関係を表す(つまり、関係を推測する)に依存する場合、クリップは苦労します。
言語監督のみを備えた関係検出データセットのクリップをトレーニングすることにより、この制限に対処するための以前の試みは、限られた成功を収めています。
この論文では、画像からの関係推論の分野を前進させるための洞察と実用的な方法を提供します。
このペーパーでは、言語監督を通じて関係をキャプチャするテキストと画像の埋め込みを作成することにより、画像内のオブジェクト間の関係を効果的に検出するモデルを作成するタスクにアプローチします。
この目的のために、動詞埋め込み(ドライブ)を介して動的な関係推論を提案します。動詞埋め込みは、ココデータセットを増強し、ハードネガティブサブジェクト関連のオブジェクトトリプルと対応する画像を備えたファインチューンクリップを拡大し、関係検出を改善するための新しい損失関数を導入します。
複数のクリップベースのモデルで評価されたこの方法は、凍結された設定と微調整された設定の両方でゼロショット関係の推論の精度を大幅に向上させ、目に見えないデータによく一般化しながら、クリップと最先端のモデルを大幅に上回っています。

要約(オリジナル)

CLIP has demonstrated exceptional image-text matching capabilities due to its training on contrastive learning tasks. Past research has suggested that whereas CLIP effectively matches text to images when the matching can be achieved just by matching the text with the objects in the image, CLIP struggles when the matching depends on representing the relationship among the objects in the images (i.e., inferring relations). Previous attempts to address this limitation by training CLIP on relation detection datasets with only linguistic supervision have met with limited success. In this paper, we offer insights and practical methods to advance the field of relation inference from images. This paper approaches the task of creating a model that effectively detects relations among the objects in images by producing text and image embeddings that capture relationships through linguistic supervision. To this end, we propose Dynamic Relation Inference via Verb Embeddings (DRIVE), which augments the COCO dataset, fine-tunes CLIP with hard negatives subject-relation-object triples and corresponding images, and introduces a novel loss function to improve relation detection. Evaluated on multiple CLIP-based models, our method significantly improves zero-shot relation inference accuracy in both frozen and fine-tuned settings, significantly outperforming CLIP and state-of-the-art models while generalizing well on unseen data.

arxiv情報

著者 Omri Suissa,Muhiim Ali,Ariana Azarbal,Hui Shen,Shekhar Pradhan
発行日 2025-03-17 10:24:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク