要約
大規模なビジョン言語モデルの進歩により、正確で正確な画像キャプションがもたらされ、マルチモーダルの画像の理解と処理を進めるために不可欠です。
しかし、これらのキャプションには、分析するのが難しく、頻繁に本質的なキューを見落とす長い絡み合ったコンテキストがあり、密集したキャプションを完全に活用するために必要な強力なテキストエンコーディングと構文分析が欠けているGroundingDinoやSDXLなどのモデルに大きな障壁を提起します。
これに対処するために、ベーコンを提案します。ベーコンは、VLMで生成されたキャプションを、オブジェクト、関係、スタイル、テーマなどのdiRentangledの構造化された要素に分解するプロンプト方法を提案します。
このアプローチは、複雑なコンテキストの処理による混乱を最小限に抑えるだけでなく、JSON辞書への効率的な転送を可能にし、言語処理機能なしでモデルを可能にしてキー情報に簡単にアクセスできます。
GPT-4Vを搭載したベーコンを使用して100,000の画像キャプションペアに注釈を付け、このデータセットでLlavaキャプションをトレーニングし、コストのかかるGPT-4Vに依存せずにベーコンスタイルのキャプションを生成できるようにしました。
全体的な品質、精度、およびリコールの評価は、ユーザー研究と同様に、結果のキャプションモデルが他のSOTA VLMモデルを一貫して高品質のキャプションを生成する際にアウトパフォームすることを実証しています。
さらに、ベーコンスタイルのキャプションは、さまざまなモデルに適用されると明確になり、以前に達成できないタスクを実現したり、トレーニングなしで既存のSOTAソリューションを上回ったりすることができることを示しています。
たとえば、ベーコンスタイルのキャプションは、GroundingDinoが主要な方法と比較して、オープンボキャブラリーオブジェクト検出タスクの1.51倍のリコールスコアを達成するのに役立ちます。
要約(オリジナル)
Advancements in large Vision-Language Models have brought precise, accurate image captioning, vital for advancing multi-modal image understanding and processing. Yet these captions often carry lengthy, intertwined contexts that are difficult to parse and frequently overlook essential cues, posing a great barrier for models like GroundingDINO and SDXL, which lack the strong text encoding and syntax analysis needed to fully leverage dense captions. To address this, we propose BACON, a prompting method that breaks down VLM-generated captions into disentangled, structured elements such as objects, relationships, styles, and themes. This approach not only minimizes confusion from handling complex contexts but also allows for efficient transfer into a JSON dictionary, enabling models without linguistic processing capabilities to easily access key information. We annotated 100,000 image-caption pairs using BACON with GPT-4V and trained an LLaVA captioner on this dataset, enabling it to produce BACON-style captions without relying on costly GPT-4V. Evaluations of overall quality, precision, and recall-as well as user studies-demonstrate that the resulting caption model consistently outperforms other SOTA VLM models in generating high-quality captions. Besides, we show that BACON-style captions exhibit better clarity when applied to various models, enabling them to accomplish previously unattainable tasks or surpass existing SOTA solutions without training. For example, BACON-style captions help GroundingDINO achieve 1.51x higher recall scores on open-vocabulary object detection tasks compared to leading methods.
arxiv情報
著者 | Zhantao Yang,Ruili Feng,Keyu Yan,Huangji Wang,Zhicai Wang,Shangwen Zhu,Han Zhang,Jie Xiao,Pingyu Wu,Kai Zhu,Jixuan Chen,Chen-Wei Xie,Yue Yang,Hongyang Zhang,Yu Liu,Fan Cheng |
発行日 | 2025-03-27 17:06:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google