Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

要約

画像記述データセットは、画像の理解、テキストから画像への生成、テキストから画像の検索などのさまざまなアプリケーションの進歩において重要な役割を果たします。
現在、画像記述データセットは主に 2 つのソースに由来しています。
ソースの 1 つは、Web からの画像とテキストのペアのスクレイピングです。
これらの説明は豊富であるにもかかわらず、品質が低く、ノイズが多いことがよくあります。
もう1つは人間によるラベル付けによるものです。
COCO などのデータセットは一般に非常に短く、詳細が不足しています。
画像の詳細な説明は人間によって注釈を付けることができますが、注釈のコストが高いため、実現可能性は制限されます。
これらの制限は、正確で詳細な画像の説明を生成するための、より効率的でスケーラブルな方法の必要性を強調しています。
この論文では、画像テキスト化 (IT) と呼ばれる革新的なフレームワークを提案します。このフレームワークは、既存のマルチモーダル大規模言語モデル (MLLM) とマルチビジョン エキスパート モデルを連携して活用することで、高品質の画像記述を自動的に生成します。
視覚的な情報をテキストに変換します。
現在の詳細な記述のベンチマークの欠如に対処するために、私たちは、フレームワークによって作成された画像記述の品質を検証する、包括的な評価のためのいくつかのベンチマークを提案します。
さらに、LLaVA-7B は、IT によって精選された説明に関するトレーニングの恩恵を受けて、より豊富な画像説明を生成する能力が向上し、幻覚が少なくなり、出力の長さと詳細が大幅に増加することを示します。

要約(オリジナル)

Image description datasets play a crucial role in the advancement of various applications such as image understanding, text-to-image generation, and text-image retrieval. Currently, image description datasets primarily originate from two sources. One source is the scraping of image-text pairs from the web. Despite their abundance, these descriptions are often of low quality and noisy. Another is through human labeling. Datasets such as COCO are generally very short and lack details. Although detailed image descriptions can be annotated by humans, the high annotation cost limits the feasibility. These limitations underscore the need for more efficient and scalable methods to generate accurate and detailed image descriptions. In this paper, we propose an innovative framework termed Image Textualization (IT), which automatically produces high-quality image descriptions by leveraging existing multi-modal large language models (MLLMs) and multiple vision expert models in a collaborative manner, which maximally convert the visual information into text. To address the current lack of benchmarks for detailed descriptions, we propose several benchmarks for comprehensive evaluation, which verifies the quality of image descriptions created by our framework. Furthermore, we show that LLaVA-7B, benefiting from training on IT-curated descriptions, acquire improved capability to generate richer image descriptions, substantially increasing the length and detail of their output with less hallucination.

arxiv情報

著者 Renjie Pi,Jianshu Zhang,Jipeng Zhang,Rui Pan,Zhekai Chen,Tong Zhang
発行日 2024-06-11 17:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク