COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation

要約

本稿では、パノプティックセグメンテーションと地に足のついた画像キャプションを強化するために作成されたCOCONut-PanCapデータセットを紹介する。高度なCOCONutパノプティックマスクを用いてCOCOデータセットを構築したこのデータセットは、しばしば詳細でシーンを包括する記述に欠ける既存の画像テキストデータセットの限界を克服することを目的としている。COCONut-PanCapデータセットは、パノプティックセグメンテーションマスクに基づく、きめ細かい領域レベルのキャプションを組み込んでおり、生成されるキャプションの一貫性を確保し、詳細性を向上させている。COCONut-PanCapは、人間が編集した高密度の注釈付き説明文を通して、画像理解のための視覚言語モデル(VLM)とテキストから画像へのタスクのための生成モデルの改良された学習をサポートする。実験結果は、COCONut-PanCapが理解タスクと生成タスクの性能を大幅に向上させ、大規模データセットに補完的な利点を提供することを示している。このデータセットは、マルチモーダル学習における高品質で詳細な画像-テキストアノテーションの必要性に対応し、パノプティックセグメンテーションと地に足のついたキャプションタスクのモデルを共同で評価するための新たなベンチマークとなる。

要約(オリジナル)

This paper introduces the COCONut-PanCap dataset, created to enhance panoptic segmentation and grounded image captioning. Building upon the COCO dataset with advanced COCONut panoptic masks, this dataset aims to overcome limitations in existing image-text datasets that often lack detailed, scene-comprehensive descriptions. The COCONut-PanCap dataset incorporates fine-grained, region-level captions grounded in panoptic segmentation masks, ensuring consistency and improving the detail of generated captions. Through human-edited, densely annotated descriptions, COCONut-PanCap supports improved training of vision-language models (VLMs) for image understanding and generative models for text-to-image tasks. Experimental results demonstrate that COCONut-PanCap significantly boosts performance across understanding and generation tasks, offering complementary benefits to large-scale datasets. This dataset sets a new benchmark for evaluating models on joint panoptic segmentation and grounded captioning tasks, addressing the need for high-quality, detailed image-text annotations in multi-modal learning.

arxiv情報

著者 Xueqing Deng,Qihang Yu,Ali Athar,Chenglin Yang,Linjie Yang,Xiaojie Jin,Xiaohui Shen,Liang-Chieh Chen
発行日 2025-02-04 18:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク