Understanding BLOOM: An empirical study on diverse NLP tasks

要約

最近リリースされた BLOOM モデルのレンズを通して大規模言語モデル (LLM) の状況を見て、BERT スタイルのエンコーダーのみのモデルと比較した BLOOM およびその他のデコーダーのみの LLM のパフォーマンスを理解します。
これは、いくつかの NLP ベンチマーク データセットと一般的なリーダーボードで、より小さな BLOOM モデル バリアント (\textit{350m/560m} および \textit{1b3/1b7}) を評価することによって実現されます。
(1) BLOOM のパフォーマンスは、GPT や BERT などの他の LLM とは異なり、パラメーターのサイズに比例しません。
BLOOM モデルを微調整する実験では、560m バリアントが 1b7 バリアントと同等またはそれ以上のパフォーマンスを発揮することが示されています。
(3) RealToxicityPrompts データセットを使用したプロンプトベースのテキスト生成の毒性分析は、BLOOM によって生成されたテキストが GPT-2 および GPT-3 モデルよりも少なくとも 17\% 毒性が低いことを示しています。

要約(オリジナル)

We view the landscape of large language models (LLMs) through the lens of the recently released BLOOM model to understand the performance of BLOOM and other decoder-only LLMs compared to BERT-style encoder-only models. We achieve this by evaluating the smaller BLOOM model variants (\textit{350m/560m} and \textit{1b3/1b7}) on several NLP benchmark datasets and popular leaderboards. We make the following observations: (1) BLOOM performance does not scale with parameter size, unlike other LLMs like GPT and BERT. Experiments fine-tuning BLOOM models show that the 560m variant performs similarly to or better than the 1b7 variant, (2) Zero-shot cross-lingual and multi-lingual fine-tuning experiments show that BLOOM is at par or worse than monolingual GPT-2 models, and (3) Toxicity analysis of prompt-based text generation using the RealToxicityPrompts dataset shows that the text generated by BLOOM is at least 17\% less toxic than GPT-2 and GPT-3 models.

arxiv情報

著者 Parag Pravin Dakle,SaiKrishna Rallabandi,Preethi Raghavan
発行日 2023-03-15 03:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク