OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

要約

3B から 9B のパラメーターにわたる自己回帰視覚言語モデルのファミリーである OpenFlamingo を紹介します。
OpenFlamingo は、DeepMind の Flamingo モデルのオープンソース レプリケーションを作成する継続的な取り組みです。
7 つの視覚言語データセットでは、OpenFlamingo モデルは、対応する Flamingo パフォーマンスの平均 80 ~ 89% でした。
この技術レポートでは、モデル、トレーニング データ、ハイパーパラメーター、評価スイートについて説明します。
モデルとコードは https://github.com/mlfoundations/open_flamingo で共有されています。

要約(オリジナル)

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind’s Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 – 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.

arxiv情報

著者 Anas Awadalla,Irena Gao,Josh Gardner,Jack Hessel,Yusuf Hanafy,Wanrong Zhu,Kalyani Marathe,Yonatan Bitton,Samir Gadre,Shiori Sagawa,Jenia Jitsev,Simon Kornblith,Pang Wei Koh,Gabriel Ilharco,Mitchell Wortsman,Ludwig Schmidt
発行日 2023-08-07 17:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク