RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

要約

Google の新しい Griffin アーキテクチャを使用するオープン言語モデルのファミリーである RecurrentGemma を紹介します。
Griffin は、線形反復と局所的な注意を組み合わせて、言語に関して優れたパフォーマンスを達成します。
サイズが固定された状態なので、メモリの使用量が削減され、長いシーケンスでの効率的な推論が可能になります。
2B パラメーターと 9B パラメーターを含む 2 つのサイズのモデルが提供され、両方の事前トレーニング済みバリアントと命令調整済みバリアントが提供されます。
私たちのモデルは、より少ないトークンでトレーニングされているにもかかわらず、同様のサイズの Gemma ベースラインと同等のパフォーマンスを達成します。

要約(オリジナル)

We introduce RecurrentGemma, a family of open language models which uses Google’s novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide two sizes of models, containing 2B and 9B parameters, and provide pre-trained and instruction tuned variants for both. Our models achieve comparable performance to similarly-sized Gemma baselines despite being trained on fewer tokens.

arxiv情報

著者 Aleksandar Botev,Soham De,Samuel L Smith,Anushan Fernando,George-Cristian Muraru,Ruba Haroun,Leonard Berrada,Razvan Pascanu,Pier Giuseppe Sessa,Robert Dadashi,Léonard Hussenot,Johan Ferret,Sertan Girgin,Olivier Bachem,Alek Andreev,Kathleen Kenealy,Thomas Mesnard,Cassidy Hardin,Surya Bhupatiraju,Shreya Pathak,Laurent Sifre,Morgane Rivière,Mihir Sanjay Kale,Juliette Love,Pouya Tafti,Armand Joulin,Noah Fiedel,Evan Senter,Yutian Chen,Srivatsan Srinivasan,Guillaume Desjardins,David Budden,Arnaud Doucet,Sharad Vikram,Adam Paszke,Trevor Gale,Sebastian Borgeaud,Charlie Chen,Andy Brock,Antonia Paterson,Jenny Brennan,Meg Risdal,Raj Gundluru,Nesh Devanathan,Paul Mooney,Nilay Chauhan,Phil Culliton,Luiz Gustavo Martins,Elisa Bandy,David Huntsperger,Glenn Cameron,Arthur Zucker,Tris Warkentin,Ludovic Peran,Minh Giang,Zoubin Ghahramani,Clément Farabet,Koray Kavukcuoglu,Demis Hassabis,Raia Hadsell,Yee Whye Teh,Nando de Frietas
発行日 2024-08-28 15:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク