Exploring Format Consistency for Instruction Tuning

要約

命令チューニングは、人間の命令に従う際の大規模な言語モデルを強化するための有望なアプローチとして浮上しています。
トレーニング データ内の命令の多様性と数を増やすと、汎化パフォーマンスが一貫して向上することが示されており、これにより、さまざまな命令を収集し、既存の命令調整データセットをより大きなコレクションに統合するという最近の取り組みが容易になります。
ただし、ユーザーが異なれば指示を表現する独自の方法があり、異なるデータセット間では指示のスタイルや形式にばらつき、つまり形式の不一致が存在することがよくあります。
この研究では、PromptSource、FLAN、CrossFit などのさまざまな命令チューニング データセット間の自動フォーマット転送のために OpenAI API を呼び出す、Unified 命令チューニング (UIT) という名前のフレームワークを提案します。
このフレームワークを使用して、(1) 命令チューニングにおけるフォーマットの一貫性を維持する必要性を実証します。
(2) T5-LM-xl 上の目に見えない命令の汎化パフォーマンスを向上させます。
(3) UIT フレームワークをより実用的なものにするために、自動フォーマット転送のノイズを低減する新しいパープレキシティ ベースのノイズ除去方法と、OpenAI API と同等のフォーマット転送機能を実現する GPT-J ベースの小型オフライン モデルを提供して、実際のコストを削減します。

対象となるフォーマットのバリエーションやその他の影響に関するさらなる分析が予定されています。

要約(オリジナル)

Instruction tuning has emerged as a promising approach to enhancing large language models in following human instructions. It is shown that increasing the diversity and number of instructions in the training data can consistently enhance generalization performance, which facilitates a recent endeavor to collect various instructions and integrate existing instruction tuning datasets into larger collections. However, different users have their unique ways of expressing instructions, and there often exist variations across different datasets in the instruction styles and formats, i.e., format inconsistency. In this work, we propose a framework named Unified Instruction Tuning (UIT), which calls OpenAI APIs for automatic format transfer among different instruction tuning datasets such as PromptSource, FLAN and CrossFit. With the framework, we (1) demonstrate the necessity of maintaining format consistency in instruction tuning; (2) improve the generalization performance on unseen instructions on T5-LM-xl; (3) provide a novel perplexity-based denoising method to reduce the noise of automatic format transfer to make the UIT framework more practical and a smaller offline model based on GPT-J that achieves comparable format transfer capability to OpenAI APIs to reduce costs in practice. Further analysis regarding variations of targeted formats and other effects is intended.

arxiv情報

著者 Shihao Liang,Runchu Tian,Kunlun Zhu,Yujia Qin,Huadong Wang,Xin Cong,Zhiyuan Liu,Xiaojiang Liu,Maosong Sun
発行日 2024-01-08 13:26:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク