Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

要約

T\’ULU [Wang et al., 2023b] のリリース以来、より優れた基本モデルから新しい微調整技術に至るまで、命令チューニングのためのオープン リソースが急速に発展してきました。
私たちはこれらの進歩の多くをテストして T\’ULU に組み込み、その結果、事前トレーニングされた言語モデルを下流のタスクやユーザーの好みに適応させる理解とベスト プラクティスを促進するための改良された T\’ULU モデルのスイートである T\’ULU 2 が誕生しました。

具体的には、以下をリリースします。(1) T\’ULU-V2-mix、高品質の命令データセットの改良されたコレクション。
(2) T\’ULU 2、LLAMA-2 モデルは V2 混合物で微調整されています。
(3) T\’ULU 2+DPO、これまでで最大の DPO トレーニング済みモデル (T\’ULU 2+DPO 70B) を含む、直接優先最適化 (DPO) でトレーニングされた T\’ULU 2 モデル。
(4) CODE T\’ULU 2、CODE LLAMA モデルは V2 ミックスで微調整され、CODE LLAMA およびその命令調整されたバージョンである CODE LLAMA-Instruct よりも優れたパフォーマンスを発揮します。
複数の観点からの評価により、T\’ULU 2 スイートはオープン モデルの中で最先端のパフォーマンスを達成し、いくつかのベンチマークで GPT-3.5-turbo-0301 のパフォーマンスと同等またはそれを超えることがわかりました。
大規模な言語モデルを適応させる将来のオープンな取り組みを促進するために、すべてのチェックポイント、データ、トレーニングおよび評価コードをリリースします。

要約(オリジナル)

Since the release of T\’ULU [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into T\’ULU, resulting in T\’ULU 2, a suite of improved T\’ULU models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) T\’ULU-V2-mix, an improved collection of high-quality instruction datasets; (2) T\’ULU 2, LLAMA-2 models finetuned on the V2 mixture; (3) T\’ULU 2+DPO, T\’ULU 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (T\’ULU 2+DPO 70B); (4) CODE T\’ULU 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the T\’ULU 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

arxiv情報

著者 Hamish Ivison,Yizhong Wang,Valentina Pyatkin,Nathan Lambert,Matthew Peters,Pradeep Dasigi,Joel Jang,David Wadden,Noah A. Smith,Iz Beltagy,Hannaneh Hajishirzi
発行日 2023-11-17 18:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク