要約
この文書では、教師あり微調整 (SFT) とも呼ばれる、急速に進歩している命令チューニング (IT) 分野における研究成果を概説します\脚注{この文書では、特に指定がない限り、教師あり微調整 (SFT) および
命令チューニング (IT) は同じ意味で使用されます。} これは、大規模言語モデル (LLM) の機能と制御性を強化するための重要な技術です。
命令チューニングとは、\textsc{(命令, 出力)} のペアで構成されるデータセット上で LLM を教師付きでさらにトレーニングするプロセスを指します。これにより、LLM の次の単語の予測目標とユーザーの次の単語予測の目標との間のギャップが埋められます。
LLM は人間の指示に従います。
この研究では、SFT の一般的な方法論、SFT データセットの構築、SFT モデルのトレーニング、さまざまなモダリティ、ドメイン、およびアプリケーションへの適用を含む文献を系統的にレビューし、それに影響を与える側面の分析を行います。
SFT の結果 (例: 命令出力の生成、命令データセットのサイズなど)。
また、既存の戦略の現在の欠陥を指摘する取り組みとともに、SFT に対する批判とともに SFT の潜在的な落とし穴を検討し、実りある研究への道をいくつか提案します。
プロジェクトページ: github.com/xiaoya-li/struct-tuning-survey
要約(オリジナル)
This paper surveys research works in the quickly advancing field of instruction tuning (IT), which can also be referred to as supervised fine-tuning (SFT)\footnote{In this paper, unless specified otherwise, supervised fine-tuning (SFT) and instruction tuning (IT) are used interchangeably.}, a crucial technique to enhance the capabilities and controllability of large language models (LLMs). Instruction tuning refers to the process of further training LLMs on a dataset consisting of \textsc{(instruction, output)} pairs in a supervised fashion, which bridges the gap between the next-word prediction objective of LLMs and the users’ objective of having LLMs adhere to human instructions. In this work, we make a systematic review of the literature, including the general methodology of SFT, the construction of SFT datasets, the training of SFT models, and applications to different modalities, domains and application, along with analysis on aspects that influence the outcome of SFT (e.g., generation of instruction outputs, size of the instruction dataset, etc). We also review the potential pitfalls of SFT along with criticism against it, along with efforts pointing out current deficiencies of existing strategies and suggest some avenues for fruitful research. Project Page: github.com/xiaoya-li/Instruction-Tuning-Survey
arxiv情報
著者 | Shengyu Zhang,Linfeng Dong,Xiaoya Li,Sen Zhang,Xiaofei Sun,Shuhe Wang,Jiwei Li,Runyi Hu,Tianwei Zhang,Fei Wu,Guoyin Wang |
発行日 | 2024-12-01 22:01:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google