要約
人間が書いたテキストに対応する指示を自動的にラベル付けすることにより、言語モデルに従って高品質な指示を構築するスケーラブルな方法を紹介します。
命令逆変換と呼ばれる私たちのアプローチは、少量のシード データと特定の Web コーパスに基づいて微調整された言語モデルから始まります。
シード モデルは、Web ドキュメントの指示プロンプトを生成し (自己拡張)、次にこれらの候補の中から高品質のサンプルを選択する (自己キュレーション) ことにより、トレーニング サンプルを構築するために使用されます。
このデータは、より強力なモデルを微調整するために使用されます。
私たちのアプローチを 2 回繰り返して LLaMa を微調整すると、蒸留データに依存しない Alpaca リーダーボード上の他のすべての LLaMa ベースのモデルよりも優れたモデルが得られ、非常に効果的な自己調整が実証されました。
要約(オリジナル)
We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment.
arxiv情報
著者 | Xian Li,Ping Yu,Chunting Zhou,Timo Schick,Luke Zettlemoyer,Omer Levy,Jason Weston,Mike Lewis |
発行日 | 2023-08-11 17:47:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google