World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

要約

視覚言語モデル (VLM) の最近の進歩と、高品質のマルチモーダル アライメント データの不足により、合成 VLM データ生成に関する数多くの研究が行われています。
VLM データ構築における従来の標準では、キャプションと OCR の専門家、またはより強力な VLM API と高価な人間による注釈を組み合わせて使用​​します。
このペーパーでは、最終生成出力を Python コード形式に編成する、綿密に精選されたマルチモーダル データ構築パイプラインである World to Code (W2C) について紹介します。
パイプラインは VLM 自体を利用して、さまざまなプロンプトを介してクロスモーダル情報を抽出し、生成された出力を一貫性フィルター戦略を介して再度フィルターします。
実験では、さまざまな VLM にわたる既存の視覚的な質問応答と視覚的なグラウンディングのベンチマークを改善することで、W2C の高品質を実証しました。
さらなる分析により、VLM の新しいコード解析機能が、一般的に使用されている詳細キャプション機能よりも優れたクロスモーダル同等性を示すことも実証されました。
私たちのコードは https://github.com/foundation-multimodal-models/World2Code で入手できます。

要約(オリジナル)

Recent advances in Vision-Language Models (VLMs) and the scarcity of high-quality multi-modal alignment data have inspired numerous researches on synthetic VLM data generation. The conventional norm in VLM data construction uses a mixture of specialists in caption and OCR, or stronger VLM APIs and expensive human annotation. In this paper, we present World to Code (W2C), a meticulously curated multi-modal data construction pipeline that organizes the final generation output into a Python code format. The pipeline leverages the VLM itself to extract cross-modal information via different prompts and filter the generated outputs again via a consistency filtering strategy. Experiments have demonstrated the high quality of W2C by improving various existing visual question answering and visual grounding benchmarks across different VLMs. Further analysis also demonstrates that the new code parsing ability of VLMs presents better cross-modal equivalence than the commonly used detail caption ability. Our code is available at https://github.com/foundation-multimodal-models/World2Code.

arxiv情報

著者 Jiacong Wang,Bohong Wu,Haiyong Jiang,Xun Zhou,Xin Xiao,Haoyuan Guo,Jun Xiao
発行日 2024-09-30 15:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク