DOCCI: Descriptions of Connected and Contrasting Images

要約

視覚言語データセットは、テキストから画像への研究 (T2I) と画像からテキストへの研究 (I2T) の両方に不可欠です。
しかし、現在のデータセットには、モデルによるより豊富な関連性の学習を可能にするきめ細かい詳細が記載されていません。
このギャップを埋めるために、DOCCI (Descriptions of Connected and Contrasting Images) を導入します。DOCCI は、空間関係などの重要な課題を捉えることを目的として、1 人の研究者によって撮影、厳選、寄贈された 15,000 枚の画像について、人による注釈が付けられた長い英語の説明を含むデータセットです。
、カウント、テキストのレンダリング、世界の知識など。
私たちはヒューマン アノテーターに、各画像の包括的な説明を作成するように指示します。
これらは平均 136 ワードの長さで、各画像を関連する画像や類似した画像から明確に区別できるように作成されています。
それぞれの説明は高度に構成されており、通常は複数の課題を含んでいます。
定量的分析と定性的分析の両方を通じて、DOCCI が画像からテキストへの生成のための効果的なトレーニング リソースとして機能することを実証します。DOCCI で微調整された PaLI 5B モデルは、LLaVA-1.5 7B のような高性能のより大きなモデルと比較して同等以上の結果を示します。
そしてInstructBLIP 7B。
さらに、DOCCI がテキストから画像への生成に有用なテストベッドであることを示し、長い説明と細かい詳細をキャプチャする際の現在のテキストから画像へのモデルの限界を強調します。

要約(オリジナル)

Vision-language datasets are vital for both text-to-image (T2I) and image-to-text (I2T) research. However, current datasets lack descriptions with fine-grained detail that would allow for richer associations to be learned by models. To fill the gap, we introduce Descriptions of Connected and Contrasting Images (DOCCI), a dataset with long, human-annotated English descriptions for 15k images that were taken, curated and donated by a single researcher intent on capturing key challenges such as spatial relations, counting, text rendering, world knowledge, and more. We instruct human annotators to create comprehensive descriptions for each image; these average 136 words in length and are crafted to clearly distinguish each image from those that are related or similar. Each description is highly compositional and typically encompasses multiple challenges. Through both quantitative and qualitative analyses, we demonstrate that DOCCI serves as an effective training resource for image-to-text generation — a PaLI 5B model finetuned on DOCCI shows equal or superior results compared to highly-performant larger models like LLaVA-1.5 7B and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for text-to-image generation, highlighting the limitations of current text-to-image models in capturing long descriptions and fine details.

arxiv情報

著者 Yasumasa Onoe,Sunayana Rane,Zachary Berger,Yonatan Bitton,Jaemin Cho,Roopal Garg,Alexander Ku,Zarana Parekh,Jordi Pont-Tuset,Garrett Tanzer,Su Wang,Jason Baldridge
発行日 2024-04-30 17:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク