要約
言語モデルのコーパスのサイズは大幅に増加し、パフォーマンスが大幅に向上しました。
しかし、より小さく、より人間に近いデータセットを処理するモデルの開発の進歩は限られています。
BabyLM の共有タスクの一環として、この研究では、限られたトレーニング コーパスを使用してゼロから事前トレーニングされた言語モデルに対する、ヒューマン フィードバックからの強化学習 (RLHF) の影響を調査します。
2 つの GPT-2 バリアントを比較すると、RLHF 微調整後のストーリーテリング タスクでは、大きいモデルの方がパフォーマンスが優れています。
これらの発見は、RLHF 技術が学習能力と適応能力が高いため、大規模なモデルに対してより有利である可能性があることを示唆していますが、この発見を確認するにはさらに多くの実験が必要です。
これらの洞察は、限られたデータ内で言語モデルを RLHF 微調整することの潜在的な利点を強調し、ストーリーテリング タスクの最初の指示をよりよく遵守しながら、物語の焦点と一貫性を維持する能力を強化します。
この作業のコードは https://github.com/Zephyr1022/BabyStories-UTSA で公開されています。
要約(オリジナル)
Language models have seen significant growth in the size of their corpus, leading to notable performance improvements. Yet, there has been limited progress in developing models that handle smaller, more human-like datasets. As part of the BabyLM shared task, this study explores the impact of reinforcement learning from human feedback (RLHF) on language models pretrained from scratch with a limited training corpus. Comparing two GPT-2 variants, the larger model performs better in storytelling tasks after RLHF fine-tuning. These findings suggest that RLHF techniques may be more advantageous for larger models due to their higher learning and adaptation capacity, though more experiments are needed to confirm this finding. These insights highlight the potential benefits of RLHF fine-tuning for language models within limited data, enhancing their ability to maintain narrative focus and coherence while adhering better to initial instructions in storytelling tasks. The code for this work is publicly at https://github.com/Zephyr1022/BabyStories-UTSA.
arxiv情報
著者 | Xingmeng Zhao,Tongnian Wang,Sheri Osborn,Anthony Rios |
発行日 | 2023-10-25 14:45:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google