Learning from Synthetic Data for Visual Grounding

要約

この論文では、テキストによる説明を画像領域に基礎付けるための視覚および言語モデルの機能を向上させるための合成トレーニング データの有効性を広範囲に調査しています。
さまざまな設定と実際のデータへのさまざまな依存度の下で一連の事前トレーニング済みモデルを使用して、画像とテキストのペアと画像とテキスト ボックスのトリプレットを最適に生成するためのさまざまな戦略を検討します。
合成データ、実際のデータ、および Web クロール データとの比較分析を通じて、パフォーマンスの違いに寄与する要因を特定し、視覚的な根拠に役立つ合成データを生成するための効果的なパイプラインである SynGround を提案します。
私たちの調査結果は、SynGround が既製の視覚および言語モデルのローカリゼーション機能を向上させ、任意の大規模なデータ生成の可能性を提供することを示しています。
特に、SynGround で生成されたデータは、事前トレーニングされた ALBEF モデルと BLIP モデルのポインティング ゲーム精度を、RefCOCO+ ベンチマークと Flickr30k ベンチマーク全体でそれぞれ 4.81% と 17.11% 絶対パーセント ポイント向上させます。

要約(オリジナル)

This paper extensively investigates the effectiveness of synthetic training data to improve the capabilities of vision-and-language models for grounding textual descriptions to image regions. We explore various strategies to best generate image-text pairs and image-text-box triplets using a series of pretrained models under different settings and varying degrees of reliance on real data. Through comparative analyses with synthetic, real, and web-crawled data, we identify factors that contribute to performance differences, and propose SynGround, an effective pipeline for generating useful synthetic data for visual grounding. Our findings show that SynGround can improve the localization capabilities of off-the-shelf vision-and-language models and offers the potential for arbitrarily large scale data generation. Particularly, data generated with SynGround improves the pointing game accuracy of a pretrained ALBEF and BLIP models by 4.81% and 17.11% absolute percentage points, respectively, across the RefCOCO+ and the Flickr30k benchmarks.

arxiv情報

著者 Ruozhen He,Ziyan Yang,Paola Cascante-Bonilla,Alexander C. Berg,Vicente Ordonez
発行日 2024-12-16 14:53:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク