Matching domain experts by training from scratch on domain knowledge

要約

最近、大規模言語モデル (LLM) は、神経科学実験の結果を予測する際に人間の専門家を上回りました (Luo et al., 2024)。
このパフォーマンスの根拠は何ですか?
可能性の 1 つは、広範なトレーニングから生じる創発的な推論能力とは対照的に、その特定の科学文献の統計パターンが LLM のパフォーマンスの根底にあるということです。
この可能性を評価するために、ドメイン固有の知識の 13 億トークンに基づいて、比較的小さな 1 億 2,400 万パラメータの GPT-2 モデルをトレーニング (次の単語の予測) しました。
小規模モデルは、数兆のトークンでトレーニングされた大規模な LLM よりも桁違いに小さいにもかかわらず、神経科学の結果を予測する際に専門家レベルのパフォーマンスを達成しました。
神経科学文献でトレーニングされた小さなモデルは、神経科学テキストで特別にトレーニングされたトークナイザーを使用して最初からトレーニングされた場合、または神経科学文献を使用して事前トレーニング済み GPT-2 を微調整した場合に成功しました。
私たちの結果は、ドメイン固有の自己回帰トレーニング アプローチを通じて、小規模な LLM であってもエキスパート レベルのパフォーマンスを達成できる可能性があることを示しています。

要約(オリジナル)

Recently, large language models (LLMs) have outperformed human experts in predicting the results of neuroscience experiments (Luo et al., 2024). What is the basis for this performance? One possibility is that statistical patterns in that specific scientific literature, as opposed to emergent reasoning abilities arising from broader training, underlie LLMs’ performance. To evaluate this possibility, we trained (next word prediction) a relatively small 124M-parameter GPT-2 model on 1.3 billion tokens of domain-specific knowledge. Despite being orders of magnitude smaller than larger LLMs trained on trillions of tokens, small models achieved expert-level performance in predicting neuroscience results. Small models trained on the neuroscience literature succeeded when they were trained from scratch using a tokenizer specifically trained on neuroscience text or when the neuroscience literature was used to finetune a pretrained GPT-2. Our results indicate that expert-level performance may be attained by even small LLMs through domain-specific, auto-regressive training approaches.

arxiv情報

著者 Xiaoliang Luo,Guangzhi Sun,Bradley C. Love
発行日 2024-07-02 16:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC パーマリンク