要約
大規模言語モデル (LLM) はさまざまなドメインにわたって広く普及しており、私たちが情報を操作したり研究を実施したりする方法が変わりました。
しかし、ほとんどの高性能 LLM は独自の壁の後ろに閉じ込められたままであり、科学の進歩を妨げています。
一方、ほとんどのオープンソース LLM は、より長いシーケンス長をサポートする能力に制限があります。これは、入力コンテキストを介した推論を必要とする多くのタスクにとって重要な要件です。
これに対処するために、最大 1.5T トークンの最大 8K シーケンス長で一連の 7B パラメーター モデルである XGen をトレーニングしました。
また、パブリック ドメインの命令データに基づいて XGen モデルを微調整し、命令を調整した対応物 (XGen-Inst) を作成しました。
私たちは研究の進歩と商用アプリケーションの両方のためにモデルをオープンソースにしています。
標準ベンチマークでの評価では、XGen モデルが最先端のオープンソース LLM と比較した場合、同等以上の結果を達成していることが示されています。
長いシーケンスのモデリング タスクに関する対象を絞った評価では、2K シーケンスのオープンソース LLM よりも 8K シーケンス モデルの利点が示されています。
要約(オリジナル)
Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.
arxiv情報
著者 | Erik Nijkamp,Tian Xie,Hiroaki Hayashi,Bo Pang,Congying Xia,Chen Xing,Jesse Vig,Semih Yavuz,Philippe Laban,Ben Krause,Senthil Purushwalkam,Tong Niu,Wojciech Kryściński,Lidiya Murakhovs’ka,Prafulla Kumar Choubey,Alex Fabbri,Ye Liu,Rui Meng,Lifu Tu,Meghana Bhat,Chien-Sheng Wu,Silvio Savarese,Yingbo Zhou,Shafiq Joty,Caiming Xiong |
発行日 | 2023-09-07 02:20:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google