Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion

要約

視覚指導の調整(訪問)データは、一般的に人間のターンでインターリーブされた画像との人間アシスタント会話として利用可能であり、現在、視覚入力を理解し、強力なLMMに変換するために強力なLLMを調整するための最も広範な車両です。
多くの訪問データセットは利用可能ですが、ほとんどは異なるグループによって独立して開発されたアドホックテクニックを使用して構築されています。
それらはしばしば不十分に文書化されており、再現性のあるコードがなく、GPT-4、Gemini、Claudeなどの有料のクローズドソースモデルAPIに依存して、画像メタデータ(ラベル)を訪問の指示に変換します。
これにより、コストが高くなり、新しいデータセットの拡張、品質の向上、または訪問データの生成が困難になります。
この作業では、これらの課題に対処し、オープンLLMを使用して手順にアクセスするために利用可能なメタデータを変換するために、オープンで統一されたレシピとアプローチ〜\ textBf {\ method}を提案します。
マルチステージ\メソッドは、メタデータグループ、品質管理、データ、および迅速な組織、および会話サンプリングのための効率的なフレームワークを備えています。
私たちのアプローチは、同じ画像データとメタデータソースに適用されると、利用可能なデータセットのデータ品質を再現または強化し、GPT-4生成された訪問命令を平均して〜3 \%、Gemma 2 27bやllama 3.1 70bなどのオープンモデルを使用して個々のベンチマークで最大12 \%を改善できることを示します。
さらに、当社のアプローチにより、幅広いベンチマークで結果のLMMパフォーマンスを強化することにより、効果的なパフォーマンススケーリング(量と品質の両方)が可能になります。
また、会話形式、ベースモデルの選択、再サンプリング戦略など、さまざまな要因の影響を分析します。
ニッチドメインの将来のメタデータから訪問への将来のデータセットと施設の同等または高品質の訪問の複製をサポートするコードは、https://github.com/jacob-hansen/instructifeにリリースされます。

要約(オリジナル)

Visual Instruction Tuning (VisIT) data, commonly available as human-assistant conversations with images interleaved in the human turns, are currently the most widespread vehicle for aligning strong LLMs to understand visual inputs, converting them to strong LMMs. While many VisIT datasets are available, most are constructed using ad-hoc techniques developed independently by different groups. They are often poorly documented, lack reproducible code, and rely on paid, closed-source model APIs such as GPT-4, Gemini, or Claude to convert image metadata (labels) into VisIT instructions. This leads to high costs and makes it challenging to scale, enhance quality, or generate VisIT data for new datasets. In this work, we address these challenges and propose an open and unified recipe and approach,~\textbf{\method}, for converting available metadata to VisIT instructions using open LLMs. Our multi-stage \method features an efficient framework for metadata grouping, quality control, data and prompt organization, and conversation sampling. We show that our approach can reproduce or enhance the data quality of available VisIT datasets when applied to the same image data and metadata sources, improving GPT-4 generated VisIT instructions by ~3\% on average and up to 12\% on individual benchmarks using open models, such as Gemma 2 27B and LLaMa 3.1 70B. Additionally, our approach enables effective performance scaling – both in quantity and quality – by enhancing the resulting LMM performance across a wide range of benchmarks. We also analyze the impact of various factors, including conversation format, base model selection, and resampling strategies. Our code, which supports the reproduction of equal or higher-quality VisIT datasets and facilities future metadata-to-VisIT data conversion for niche domains, is released at https://github.com/jacob-hansen/Instructify.

arxiv情報

著者 Jacob Hansen,Wei Lin,Junmo Kang,Muhammad Jehanzeb Mirza,Hongyin Luo,Rogerio Feris,Alan Ritter,James Glass,Leonid Karlinsky
発行日 2025-05-23 17:14:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク