Scalable Vision Language Model Training via High Quality Data Curation

要約

このペーパーでは、2B パラメータを備えた最先端 (SOTA) パフォーマンスのオープンソース ビジョン言語モデル (VLM) である SAIL-VL (高品質データ キュレーションによる ScAlable Vision Language Model Training) を紹介します。
SAIL-VL の優れたパフォーマンスに貢献する 3 つの主要な改善点を紹介します。 (1) スケーラブルで高品質な視覚理解データ構築: 億規模の高品質な再キャプション データ アノテーションを可能にする視覚理解データ構築パイプラインを実装します。
このパイプラインを備えて、オープンソースのキャプション データセットと比較して、大量かつ最高のデータ品質を持つ大規模なキャプション データセットである SAIL-Caption をキュレーションします。
(2) 高品質の視覚的理解データによるスケーラブルな事前トレーニング: SAIL-VL の事前トレーニング予算を最大 1310 億トークンまで拡張し、20 億 VLM でもトレーニング データ サイズをスケールアップすることでメリットが得られることを示し、視覚的理解と指導において予想されるデータ サイズのスケーリング則を示します。
続いてのパフォーマンス。
(3) 量と質のスケーリングによるスケーラブルな SFT: 指示データを継続的にスケールアップするための指示データのキュレーションに関する一般的なガイダンスを導入し、最高品質の大規模な SFT データセットを構築できるようにします。
SAIL-VL のパフォーマンスをさらに向上させるために、カリキュラム学習を伴う多段階トレーニング レシピである品質スケーリングを提案し、モデルのパフォーマンス スケーリング曲線を改善します。
データ サイズは対数からほぼ線形になります。
SAIL-VL は、当社の評価で一般的に使用される 19 のベンチマークで最高の平均スコアを獲得し、OpenCompass (https://rank.opencompass.org.cn/leaderboard-multimodal) 上の同等のサイズの VLM の中でトップ 1 のパフォーマンスを達成しました。
SAIL-VL-2B モデルを HuggingFace (https://huggingface.co/BytedanceDouyinContent/SAIL-VL-2B) でリリースします。

要約(オリジナル)

In this paper, we introduce SAIL-VL (ScAlable Vision Language Model TraIning via High QuaLity Data Curation), an open-source vision language model (VLM) of state-of-the-art (SOTA) performance with 2B parameters. We introduce three key improvements that contribute to SAIL-VL’s leading performance: (1) Scalable high-quality visual understanding data construction: We implement a visual understanding data construction pipeline, which enables hundred-million-scale high-quality recaption data annotation. Equipped with this pipeline, we curate SAIL-Caption, a large-scale caption dataset with large quantity and the highest data quality compared with opensource caption datasets. (2) Scalable Pretraining with High-Quality Visual Understanding Data: We scale SAIL-VL’s pretraining budget up to 131B tokens and show that even a 2B VLM benefits from scaled up training data sizes, exhibiting expected data size scaling laws in visual understanding and instruction following performance. (3) Scalable SFT via quantity and quality scaling: We introduce general guidance for instruction data curation to scale up instruction data continuously, allowing us to construct a large SFT dataset with the highest quality. To further improve SAIL-VL’s performance, we propose quality scaling, a multi-stage training recipe with curriculum learning, to improve model performance scaling curves w.r.t. data sizes from logarithmic to be near-linear. SAIL-VL obtains the highest average score in 19 commonly used benchmarks in our evaluation and achieves top1 performance among VLMs of comparable sizes on OpenCompass (https://rank.opencompass.org.cn/leaderboard-multimodal). We release our SAIL-VL-2B model at HuggingFace (https://huggingface.co/BytedanceDouyinContent/SAIL-VL-2B).

arxiv情報

著者 Hongyuan Dong,Zijian Kang,Weijie Yin,Xiao Liang,Chao Feng,Jiao Ran
発行日 2025-01-10 13:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク