要約
T\’ULU [Wang et al., 2023b] のリリース以来、より優れた基本モデルから新しい微調整技術に至るまで、命令チューニングのためのオープン リソースが急速に発展してきました。
私たちはこれらの進歩の多くをテストして T\’ULU に組み込み、その結果、事前トレーニングされた言語モデルを下流のタスクやユーザーの好みに適応させる理解とベスト プラクティスを促進するための改良された T\’ULU モデルのスイートである T\’ULU 2 が誕生しました。
。
具体的には、以下をリリースします。(1) T\’ULU-V2-mix、高品質の命令データセットの改良されたコレクション。
(2) T\’ULU 2、LLAMA-2 モデルは V2 混合物で微調整されています。
(3) T\’ULU 2+DPO、これまでで最大の DPO トレーニング済みモデル (T\’ULU 2+DPO 70B) を含む、直接優先最適化 (DPO) でトレーニングされた T\’ULU 2 モデル。
(4) CODE T\’ULU 2、CODE LLAMA モデルは V2 ミックスで微調整され、CODE LLAMA およびその命令調整されたバージョンである CODE LLAMA-Instruct よりも優れたパフォーマンスを発揮します。
複数の観点からの評価により、T\’ULU 2 スイートはオープン モデルの中で最先端のパフォーマンスを達成し、いくつかのベンチマークで GPT-3.5-turbo-0301 のパフォーマンスと同等またはそれを超えることがわかりました。
大規模な言語モデルを適応させる将来のオープンな取り組みを促進するために、すべてのチェックポイント、データ、トレーニングおよび評価コードをリリースします。
要約(オリジナル)
Since the release of T\’ULU [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into T\’ULU, resulting in T\’ULU 2, a suite of improved T\’ULU models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) T\’ULU-V2-mix, an improved collection of high-quality instruction datasets; (2) T\’ULU 2, LLAMA-2 models finetuned on the V2 mixture; (3) T\’ULU 2+DPO, T\’ULU 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (T\’ULU 2+DPO 70B); (4) CODE T\’ULU 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the T\’ULU 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.
arxiv情報
著者 | Hamish Ivison,Yizhong Wang,Valentina Pyatkin,Nathan Lambert,Matthew Peters,Pradeep Dasigi,Joel Jang,David Wadden,Noah A. Smith,Iz Beltagy,Hannaneh Hajishirzi |
発行日 | 2023-11-20 02:01:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google