要約
小規模言語モデル (SLM) は、一般に、大規模言語モデル (LLM) のよりコンパクトなバージョンとみなされます。
この研究では、10 億から 30 億のパラメータを持つ SLM がデータ内に存在するさまざまな種類のノイズを学習、保持し、その後除去する能力を調査します。
これには、Olmo 1B、Qwen1.5 1.8B、Gemma 2B、および Phi2 2.7B の 4 つの事前トレーニング済み SLM が利用されました。
モデルはノイズのないデータに基づいて命令調整され、コンテキスト内の例を使用してテストされ、例を通じてノイズを学習できるかどうかが判断されました。
その後、モデルのノイズ学習、学習解除、および保持能力を評価するために、命令調整にノイズ パターンが導入されました。
最小モデルのオルモはノイズに非常に敏感で、ノイズの多いパターンにすぐに適応しました。
Phi2 は、おそらく慎重に厳選され、構造化された高品質の事前トレーニング データのおかげで、文字レベルの学習や音訳ノイズに耐性がありました。
Gemma は音訳ノイズで優れており、おそらく多言語の事前トレーニングの恩恵を受けています。
この結果は、SLM のための堅牢なトレーニング戦略を開発するために使用できます。
要約(オリジナル)
Small Language Models (SLMs) are generally considered more compact versions of large language models (LLMs). This study investigates the ability of SLMs with parameters between 1 and 3 billion to learn, retain, and subsequently eliminate different types of noise present in the data. Four pre-trained SLMs were utilized for this: Olmo 1B, Qwen1.5 1.8B, Gemma 2B, and Phi2 2.7B. The models were instruction-tuned on noise-free data and tested using in-context examples to determine if they could learn noise through examples. Subsequently, noise patterns were introduced in instruction tuning to evaluate the noise learning, unlearning, and retention capabilities of the models. Olmo, the smallest model, was highly sensitive to noise, quickly adapting to noisy patterns. Phi2 resisted learning character-level and transliteration noise, likely due to its carefully curated, structured, and high-quality pretraining data. Gemma excelled with transliteration noise, likely benefiting from its multilingual pretraining. The findings can be used to develop robust training strategies for SLMs.
arxiv情報
著者 | Nicy Scaria,Silvester John Joseph Kennedy,Deepak Subramani |
発行日 | 2024-11-14 06:55:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google