要約
2021年初頭にリリースされたOpenAIのクリップは、マルチモーダルファンデーションモデルを構築するためのビジョンエンコーダーの選択に長い間選択されてきました。
Siglipなどの最近の代替品はこの現状に挑戦し始めていますが、私たちの知る限り、完全に開かれていないことがあります。彼らのトレーニングデータはまれであり、トレーニングレシピはリリースされていません。
このペーパーでは、Llavaなどのマルチモーダルフレームワークに統合されたときにOpenaiのクリップのパフォーマンスに一致または上回る、完全に開放された費用対効果の高いビジョンエンコーダーであるOpenVisionでこのギャップを埋めます。
OpenVisionは、既存の作業(たとえば、トレーニングフレームワークのクリップとトレーニングデータのための要約DATACOMP-1B)に基づいて構築され、エンコーダーの品質を高め、マルチモーダルモデルの進歩における実用的な利点を紹介する複数の重要な洞察を明らかにします。
5.9mから632.1mのパラメーターにまたがるビジョンエンコーダーをリリースすることにより、OpenVisionは実務家にマルチモーダルモデルの構築の容量と効率の柔軟なトレードオフを提供します。より大きなモデルはマルチモーダルパフォーマンスを強化しますが、小型バージョンは軽量でエッジ対応マルチモーダルの展開を可能にします。
要約(オリジナル)
OpenAI’s CLIP, released in early 2021, have long been the go-to choice of vision encoder for building multimodal foundation models. Although recent alternatives such as SigLIP have begun to challenge this status quo, to our knowledge none are fully open: their training data remains proprietary and/or their training recipes are not released. This paper fills this gap with OpenVision, a fully-open, cost-effective family of vision encoders that match or surpass the performance of OpenAI’s CLIP when integrated into multimodal frameworks like LLaVA. OpenVision builds on existing works — e.g., CLIPS for training framework and Recap-DataComp-1B for training data — while revealing multiple key insights in enhancing encoder quality and showcasing practical benefits in advancing multimodal models. By releasing vision encoders spanning from 5.9M to 632.1M parameters, OpenVision offers practitioners a flexible trade-off between capacity and efficiency in building multimodal models: larger models deliver enhanced multimodal performance, while smaller versions enable lightweight, edge-ready multimodal deployments.
arxiv情報
著者 | Xianhang Li,Yanqing Liu,Haoqin Tu,Hongru Zhu,Cihang Xie |
発行日 | 2025-05-07 17:48:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google