要約
統一されたマルチモーダルの理解と生成は、最先端の独自のシステムで印象的な能力を示しています。
この作業では、マルチモーダルの理解と生成をネイティブにサポートするOpen0Sourceの基礎モデルであるBagelを紹介します。
ベーグルは、大規模なインテリアのテキスト、画像、ビデオ、およびWebデータからキュレーションされた数兆個のトークンで前処理された統一されたdecoder0onlyモデルです。
このような多様なマルチモーダルインターリーブデータで拡大すると、ベーグルは複雑なマルチモーダル推論に新たな能力を示します。
その結果、フリーフォームの画像操作、将来のフレーム予測、3D操作、世界ナビゲーションなどの高度なマルチモーダル推論能力を示しながら、マルチモーダル生成と標準ベンチマーク全体の理解の両方でオープンソースユニファイドモデルを大幅に上回ります。
マルチモーダル研究のさらなる機会を促進することを期待して、主要な調査結果、事前トレーニングの詳細、データ作成プロトカルを共有し、コードとチェックポイントをコミュニティにリリースします。
プロジェクトページはhttps://bagel-ai.org/にあります
要約(オリジナル)
Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/
arxiv情報
著者 | Chaorui Deng,Deyao Zhu,Kunchang Li,Chenhui Gou,Feng Li,Zeyu Wang,Shu Zhong,Weihao Yu,Xiaonan Nie,Ziang Song,Guang Shi,Haoqi Fan |
発行日 | 2025-05-20 17:59:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google