Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

要約

ビジュアルコンテンツに対する既存の自動キャプション方法は、詳細の欠如、コンテンツの幻覚、指示のフォローの不十分さなどの課題に直面しています。
この研究では、2D 画像と 3D オブジェクトの両方に対して高忠実度で詳細なキャプションを生成する、トレーニング不要の柔軟なパイプラインである VisualFactChecker (VFC) を提案します。
VFC は 3 つのステップで構成されます。1) 提案。画像からテキストへのキャプション モデルが複数の初期キャプションを提案します。
2) 検証。大規模言語モデル (LLM) がオブジェクト検出や VQA モデルなどのツールを利用して、提案されたキャプションを事実確認します。
3) キャプション。LLM がキャプション提案とファクトチェックの検証結果を要約して最終的なキャプションを生成します。
このステップでは、VFC は複雑な指示に従ってさまざまなスタイルのキャプションを柔軟に生成できます。
当社は、次の 4 つの指標を使用して包括的なキャプション評価を実施します。1) 画像とテキストの類似性の CLIP スコア。
2) 元の画像と、キャプションを使用してテキストから画像へのモデルによって生成された再構成画像の間の画像間の類似性を測定するための CLIP-Image-Score。
3) Amazon Mechanical Turk での人体研究。
4) GPT-4V による詳細な評価。
評価結果は、COCO データセット上の 2D 画像および Objaverse データセット上の 3D アセットに対して、VFC が最先端のオープンソースのキャプション手法よりも優れていることを示しています。
私たちの調査では、オープンソース モデルをパイプラインに組み合わせることで、モデル サイズが 10 分の 1 以上小さいにもかかわらず、GPT-4V などの独自モデルと同等のキャプション機能を達成できることが実証されました。

要約(オリジナル)

Existing automatic captioning methods for visual content face challenges such as lack of detail, content hallucination, and poor instruction following. In this work, we propose VisualFactChecker (VFC), a flexible training-free pipeline that generates high-fidelity and detailed captions for both 2D images and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text captioning models propose multiple initial captions; 2) verification, where a large language model (LLM) utilizes tools such as object detection and VQA models to fact-check proposed captions; 3) captioning, where an LLM generates the final caption by summarizing caption proposals and the fact check verification results. In this step, VFC can flexibly generate captions in various styles following complex instructions. We conduct comprehensive captioning evaluations using four metrics: 1) CLIP-Score for image-text similarity; 2) CLIP-Image-Score for measuring the image-image similarity between the original and the reconstructed image generated by a text-to-image model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V for fine-grained evaluation. Evaluation results show that VFC outperforms state-of-the-art open-sourced captioning methods for 2D images on the COCO dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by combining open-source models into a pipeline, we can attain captioning capability comparable to proprietary models such as GPT-4V, despite being over 10x smaller in model size.

arxiv情報

著者 Yunhao Ge,Xiaohui Zeng,Jacob Samuel Huffman,Tsung-Yi Lin,Ming-Yu Liu,Yin Cui
発行日 2024-04-30 17:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク