Pretrained Generative Language Models as General Learning Frameworks for Sequence-Based Tasks

要約

私たちは、数百万のパラメーターを備えた事前トレーニング済みの小さな基本生成言語モデルを、シーケンスベースのタスクの一般的な学習フレームワークとして利用できることを提案します。
私たちの提案は、ニューラル ネットワークと言語モデルをゼロからトレーニングすることに伴う計算リソース、スキル セット、タイムラインの課題を克服します。
さらに、私たちのアプローチは、基本モデルでは実行できない困難なタスクを正確に実行できる、小型で高度に特殊化されたモデルの作成に焦点を当てています。
我々は、125M、350M、および 1.3B のパラメーターで事前トレーニングされた基本言語モデルを 10,000 ~ 1,000,000 の命令例で命令を微調整して、困難なケモインフォマティクス タスクで最先端に近い結果を達成できることを実証します。
また、結果の改善における連続した言語モデルの微調整エポックの役割、および命令の微調整を成功させるにはデータのフォーマットと事前トレーニングされた基本言語モデルの選択の両方の重要性も示します。

要約(オリジナル)

We propose that small pretrained foundational generative language models with millions of parameters can be utilized as a general learning framework for sequence-based tasks. Our proposal overcomes the computational resource, skill set, and timeline challenges associated with training neural networks and language models from scratch. Further, our approach focuses on creating small and highly specialized models that can accurately execute a challenging task of which the base model is incapable of performing. We demonstrate that 125M, 350M, and 1.3B parameter pretrained foundational language models can be instruction fine-tuned with 10,000-to-1,000,000 instruction examples to achieve near state-of-the-art results on challenging cheminformatics tasks. We also demonstrate the role of successive language model fine-tuning epochs on improved outcomes, as well as the importance of both data formatting and pretrained foundational language model selection for instruction fine-tuning success.

arxiv情報

著者 Ben Fauber
発行日 2024-02-08 12:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク