Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

要約

Reka によってゼロからトレーニングされた一連の強力なマルチモーダル言語モデルである Reka Core、Flash、および Edge を紹介します。
Reka モデルは、テキスト、画像、ビデオ、オーディオ入力を処理して推論することができます。
この技術レポートでは、これらのモデルの一部のトレーニングの詳細について説明し、包括的な評価結果を提供します。
Reka Edge と Reka Flash は最先端であるだけでなく、多くのはるかに大規模なモデルよりも優れたパフォーマンスを発揮し、それぞれのコンピューティング クラスに大きな価値を提供することを示します。
一方、当社の最も有能かつ最大のモデルである Reka Core は、自動評価と人間によるブラインド評価の両方で最高のフロンティア モデルに近づいています。
画像質問応答ベンチマーク (MMMU、VQAv2 など) では、Core は GPT4-V に匹敵するパフォーマンスを発揮します。
一方、マルチモーダル チャットでは、Core はサードパーティによるブラインド評価設定の下で 2 番目に好ましいモデルとしてランク付けされ、Claude 3 Opus などの他のモデルを上回っています。
テキスト ベンチマークでは、Core は一連の確立されたベンチマーク (MMLU、GSM8K など) で他のフロンティア モデルに匹敵するパフォーマンスを発揮するだけでなく、人間による評価でも GPT4-0613 を上回ります。
ビデオ質問応答 (知覚テスト) では、Core が Gemini Ultra を上回ります。
モデルは http://chat.reka.ai で本番環境で出荷されます。
厳選された定性的な例以外のショーケースも http://showcase.reka.ai にあります。

要約(オリジナル)

We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .

arxiv情報

著者 Aitor Ormazabal,Che Zheng,Cyprien de Masson d’Autume,Dani Yogatama,Deyu Fu,Donovan Ong,Eric Chen,Eugenie Lamprecht,Hai Pham,Isaac Ong,Kaloyan Aleksiev,Lei Li,Matthew Henderson,Max Bain,Mikel Artetxe,Nishant Relan,Piotr Padlewski,Qi Liu,Ren Chen,Samuel Phua,Yazheng Yang,Yi Tay,Yuqi Wang,Zhongkai Zhu,Zhihui Xie
発行日 2024-04-18 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク