要約
3B から 9B のパラメーターにわたる自己回帰視覚言語モデルのファミリーである OpenFlamingo を紹介します。
OpenFlamingo は、DeepMind の Flamingo モデルのオープンソース レプリケーションを作成する継続的な取り組みです。
7 つの視覚言語データセットでは、OpenFlamingo モデルは、対応する Flamingo パフォーマンスの平均 80 ~ 89% でした。
この技術レポートでは、モデル、トレーニング データ、ハイパーパラメーター、評価スイートについて説明します。
モデルとコードは https://github.com/mlfoundations/open_flamingo で共有されています。
要約(オリジナル)
We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind’s Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 – 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.
arxiv情報
| 著者 | Anas Awadalla,Irena Gao,Josh Gardner,Jack Hessel,Yusuf Hanafy,Wanrong Zhu,Kalyani Marathe,Yonatan Bitton,Samir Gadre,Shiori Sagawa,Jenia Jitsev,Simon Kornblith,Pang Wei Koh,Gabriel Ilharco,Mitchell Wortsman,Ludwig Schmidt |
| 発行日 | 2023-08-07 17:53:09+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google