要約
命令チューニングは、人間の命令に従う際の大規模な言語モデルを強化するための有望なアプローチとして浮上しています。
トレーニング データ内の命令の多様性と数を増やすと、汎化パフォーマンスが一貫して向上することが示されており、これにより、さまざまな命令を収集し、既存の命令調整データセットをより大きなコレクションに統合するという最近の取り組みが容易になります。
ただし、ユーザーが異なれば指示を表現する独自の方法があり、異なるデータセット間では指示のスタイルや形式にばらつき、つまり形式の不一致が存在することがよくあります。
この研究では、フォーマットの不一致が命令チューニングのパフォーマンスにどのような影響を与えるかを研究します。
私たちは、異なる命令チューニング データセット間の自動フォーマット転送のために OpenAI API を呼び出す「統合命令チューニング」(UIT) と呼ばれるフレームワークを提案します。
UIT が目に見えない命令の一般化パフォーマンスを向上させることに成功したことを示します。これは、命令チューニングにおけるフォーマットの一貫性の重要性を強調しています。
UIT フレームワークをより実用的なものにするために、自動フォーマット転送のノイズを低減するための新しいパープレキシティ ベースのノイズ除去方法をさらに提案します。
また、実際のコストを削減するために、OpenAI API と同等のフォーマット転送機能を実現する小規模なオフライン モデルもトレーニングします。
要約(オリジナル)
Instruction tuning has emerged as a promising approach to enhancing large language models in following human instructions. It is shown that increasing the diversity and number of instructions in the training data can consistently enhance generalization performance, which facilitates a recent endeavor to collect various instructions and integrate existing instruction tuning datasets into larger collections. However, different users have their unique ways of expressing instructions, and there often exist variations across different datasets in the instruction styles and formats, i.e., format inconsistency. In this work, we study how format inconsistency may impact the performance of instruction tuning. We propose a framework called ‘Unified Instruction Tuning’ (UIT), which calls OpenAI APIs for automatic format transfer among different instruction tuning datasets. We show that UIT successfully improves the generalization performance on unseen instructions, which highlights the importance of format consistency for instruction tuning. To make the UIT framework more practical, we further propose a novel perplexity-based denoising method to reduce the noise of automatic format transfer. We also train a smaller offline model that achieves comparable format transfer capability than OpenAI APIs to reduce costs in practice.
arxiv情報
著者 | Shihao Liang,Kunlun Zhu,Runchu Tian,Yujia Qin,Huadong Wang,Xin Cong,Zhiyuan Liu,Xiaojiang Liu,Maosong Sun |
発行日 | 2023-07-28 12:00:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google