Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

要約

現在の最も先進的なマルチモーダル モデルは独自の仕様のままです。
最強のオープンウェイト モデルは、優れたパフォーマンスを実現するために独自の VLM からの合成データに大きく依存しており、これらのクローズド モデルをオープンなモデルに効果的に蒸留します。
その結果、コミュニティには、パフォーマンスの高い VLM をゼロから構築する方法に関する基礎的な知識がまだ不足しています。
私たちは、オープン性のクラスで最先端の VLM の新しいファミリーである Molmo を紹介します。
私たちの主なイノベーションは、音声ベースの説明を使用してヒューマン アノテーターから完全に収集された、斬新で非常に詳細な画像キャプション データセットです。
幅広いユーザー インタラクションを可能にするために、実際の Q&A や革新的な 2D ポインティング データを含む、微調整用の多様なデータセットの混合も導入しています。
私たちのアプローチが成功するかどうかは、モデル アーキテクチャの詳細の慎重な選択、適切に調整されたトレーニング パイプライン、そして最も重要なことに、新しく収集され、リリースされるデータセットの品質にかかっています。
モルモファミリー内でクラス最高の 72B モデルは、オープンウェイトおよびデータモデルのクラスで他のモデルよりも優れているだけでなく、学術的ベンチマークと人間による評価の両方において、GPT-4o、Claude 3.5、Gemini 1.5 などの独自のシステムと比較して優れています。

近い将来、すべてのモデルの重み、キャプションと微調整データ、およびソース コードをリリースする予定です。
選択したモデルの重み、推論コード、デモは https://molmo.allenai.org で入手できます。

要約(オリジナル)

Today’s most advanced multimodal models remain proprietary. The strongest open-weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed models into open ones. As a result, the community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a new family of VLMs that are state-of-the-art in their class of openness. Our key innovation is a novel, highly detailed image caption dataset collected entirely from human annotators using speech-based descriptions. To enable a wide array of user interactions, we also introduce a diverse dataset mixture for fine-tuning that includes in-the-wild Q&A and innovative 2D pointing data. The success of our approach relies on careful choices for the model architecture details, a well-tuned training pipeline, and, most critically, the quality of our newly collected datasets, all of which will be released. The best-in-class 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation. We will be releasing all of our model weights, captioning and fine-tuning data, and source code in the near future. Select model weights, inference code, and demo are available at https://molmo.allenai.org.

arxiv情報

著者 Matt Deitke,Christopher Clark,Sangho Lee,Rohun Tripathi,Yue Yang,Jae Sung Park,Mohammadreza Salehi,Niklas Muennighoff,Kyle Lo,Luca Soldaini,Jiasen Lu,Taira Anderson,Erin Bransom,Kiana Ehsani,Huong Ngo,YenSung Chen,Ajay Patel,Mark Yatskar,Chris Callison-Burch,Andrew Head,Rose Hendrix,Favyen Bastani,Eli VanderBilt,Nathan Lambert,Yvonne Chou,Arnavi Chheda,Jenna Sparks,Sam Skjonsberg,Michael Schmitz,Aaron Sarnat,Byron Bischoff,Pete Walsh,Chris Newell,Piper Wolters,Tanmay Gupta,Kuo-Hao Zeng,Jon Borchardt,Dirk Groeneveld,Jen Dumas,Crystal Nam,Sophie Lebrecht,Caitlin Wittlif,Carissa Schoenick,Oscar Michel,Ranjay Krishna,Luca Weihs,Noah A. Smith,Hannaneh Hajishirzi,Ross Girshick,Ali Farhadi,Aniruddha Kembhavi
発行日 2024-09-25 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク