Pre-training LLMs using human-like development data corpus

要約

事前トレーニングされた大規模言語モデル (LLM) は、さまざまな言語推論および理解タスクで成功を収めています。
LLM の事前トレーニング段階では、生のテキスト データの大規模なコーパスを調べます。
BabyLM の共有タスクでは、LLM の事前トレーニングと人間の言語習得を比較しています。13 歳の子供が見たトークンの数は、LLM が見たトークンの数よりもはるかに少ないです。
この研究では、子供たちが見たのとほぼ同じ数のトークンを使用して文脈上の単語表現を学習する能力について LLM を事前トレーニングし、評価します。
私たちは強力なベースラインを提供します。
さまざまなアーキテクチャ、エポックにわたるパフォーマンスの変化の評価、タスクの厳密な小規模および厳密なトラックの事前トレーニング メトリックの報告。
また、ハイパーパラメーターの選択に対するトレーニングの堅牢性と再現性を観察するために、タスク主催者によって与えられた RoBERTa ベースラインを大まかに複製することも試みます。
このレポートでは、厳密なトラックと厳密な小規模トラックへの提出の詳細を提供します。

要約(オリジナル)

Pre-trained Large Language Models (LLMs) have shown success in a diverse set of language inference and understanding tasks. The pre-training stage of LLMs looks at a large corpus of raw textual data. The BabyLM shared task compares LLM pre-training to human language acquisition, where the number of tokens seen by 13-year-old kids is magnitudes smaller than the number of tokens seen by LLMs. In this work, we pre-train and evaluate LLMs on their ability to learn contextual word representations using roughly the same number of tokens as seen by children. We provide a strong set of baselines; with different architectures, evaluation of changes in performance across epochs, and reported pre-training metrics for the strict small and strict tracks of the task. We also try to loosely replicate the RoBERTa baseline given by the task organizers to observe the training robustness to hyperparameter selection and replicability. We provide the submission details to the strict and strict-small tracks in this report.

arxiv情報

著者 Khushi Bhardwaj,Raj Sanjay Shah,Sashank Varma
発行日 2024-01-10 05:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク