要約
本論文では、視覚言語モデル(VLM)の特権を味わい、検出、視覚的質問応答(VQA)、画像生成などの下流のタスクを後押しするために、言語能力に制限のあるモデルに贈るBag-of-Concept Graph(BACON)を提示する。物理世界の視覚シーンはオブジェクト間の複雑な関係で構成されているため、BACONはアノテーションを基本的な最小要素に分解し、グラフ構造で提示する。要素ごとのスタイルは理解を容易にし、構造的な構成は困難な位置特定を解放する。入念なプロンプト設計により、公開されているVLMとセグメンテーション手法の助けを借りて、BACONのキャプションが誕生する。このようにして、10万枚のアノテーション付き画像からなるデータセットを収集し、VLMに、BACONの正確な生成、プロンプトのBACON形式への変換、BACONrのスタイルでのシナリオの想定、インタラクティブな対話によるBACON内の要素の動的な変更など、顕著な機能を付与する。検出、VQA、および画像生成タスクを含む広範な代表的な実験では、BACONが、以前の手の届かないタスクを達成するための生命線として、または現在の最先端のソリューションで優れていることを伝えています。
要約(オリジナル)
This paper presents Bag-of-Concept Graph (BACON) to gift models with limited linguistic abilities to taste the privilege of Vision Language Models (VLMs) and boost downstream tasks such as detection, visual question answering (VQA), and image generation. Since the visual scenes in physical worlds are structured with complex relations between objects, BACON breaks down annotations into basic minimum elements and presents them in a graph structure. Element-wise style enables easy understanding, and structural composition liberates difficult locating. Careful prompt design births the BACON captions with the help of public-available VLMs and segmentation methods. In this way, we gather a dataset with 100K annotated images, which endow VLMs with remarkable capabilities, such as accurately generating BACON, transforming prompts into BACON format, envisioning scenarios in the style of BACONr, and dynamically modifying elements within BACON through interactive dialogue and more. Wide representative experiments, including detection, VQA, and image generation tasks, tell BACON as a lifeline to achieve previous out-of-reach tasks or excel in their current cutting-edge solutions.
arxiv情報
著者 | Zhantao Yang,Ruili Feng,Keyu Yan,Huangji Wang,Zhicai Wang,Shangwen Zhu,Han Zhang,Jie Xiao,Pingyu Wu,Kai Zhu,Jixuan Chen,Chen-Wei Xie,Chaojie Mao,Yue Yang,Hongyang Zhang,Yu Liu,Fan Cheng |
発行日 | 2024-07-03 17:55:27+00:00 |
arxivサイト | arxiv_id(pdf) |