要約
SynGround は、データ駆動型学習とさまざまな大規模な事前トレーニング済みモデルからの知識伝達を組み合わせて、事前トレーニング済みの視覚と言語モデルの視覚的基礎付け機能を強化する新しいフレームワークです。
モデルからの知識の伝達により、画像記述ジェネレーターによる画像記述の生成が開始されます。
これらの説明には 2 つの目的があります。テキストから画像へのジェネレーターを介して画像を合成するためのプロンプトとして機能し、大規模な言語モデルを使用してフレーズが抽出されるテキストを合成するためのクエリとして機能します。
最後に、オープン語彙オブジェクト検出器を活用して、合成画像と合成テキストの合成境界ボックスを生成します。
領域の注釈を勾配ベースのモデルの説明と一致させるマスク注意の一貫性目標を最適化することで、このデータセットで事前トレーニングされた視覚と言語のモデルを微調整します。
結果として得られるモデルは、既製の視覚および言語モデルの基礎能力を向上させます。
特に、SynGround は、Flickr30k データセットでの ALBEF のポインティング ゲーム精度を 79.38% から 87.26%、RefCOCO+ テスト A で 69.35% から 79.06%、RefCOCO+ テスト B で 53.77% から 63.67% に向上させます。
要約(オリジナル)
We introduce SynGround, a novel framework that combines data-driven learning and knowledge transfer from various large-scale pretrained models to enhance the visual grounding capabilities of a pretrained vision-and-language model. The knowledge transfer from the models initiates the generation of image descriptions through an image description generator. These descriptions serve dual purposes: they act as prompts for synthesizing images through a text-to-image generator, and as queries for synthesizing text, from which phrases are extracted using a large language model. Finally, we leverage an open-vocabulary object detector to generate synthetic bounding boxes for the synthetic images and texts. We finetune a pretrained vision-and-language model on this dataset by optimizing a mask-attention consistency objective that aligns region annotations with gradient-based model explanations. The resulting model improves the grounding capabilities of an off-the-shelf vision-and-language model. Particularly, SynGround improves the pointing game accuracy of ALBEF on the Flickr30k dataset from 79.38% to 87.26%, and on RefCOCO+ Test A from 69.35% to 79.06% and on RefCOCO+ Test B from 53.77% to 63.67%.
arxiv情報
著者 | Ruozhen He,Paola Cascante-Bonilla,Ziyan Yang,Alexander C. Berg,Vicente Ordonez |
発行日 | 2024-03-20 17:59:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google