要約
大規模言語モデル (LLM) は目覚ましい進歩を遂げていますが、応答品質とユーザー エクスペリエンスを向上させるために重要な、高度な制約の下での繊細な制御性が依然として不足しています。
条件付き教師あり微調整 (SFT) は LLM の制御性を向上させる可能性がありますが、制約を満たすための新しい SFT データのキュレーションは通常、人間の専門家または独自の LLM に依存しており、時間と費用がかかります。
このギャップを埋めるために、元の SFT データに複数の制約を組み込んだ人手/LLM 不要のデータ拡張手法であるルールベースのデータ リサイクル (RuleR) を提案します。
新しい応答を最初から作成するのではなく、RuleR は言語ルールまたは書式設定ルールを元の命令に統合し、ルール定義の制約を満たすように応答を変更します。
「リサイクルされた」データに関するトレーニングにより、制約付きの出力を生成する LLM の機能が統合されます。
広範な実験により、一般的な命令追従パフォーマンスを維持しながら、LLM の制御性を向上させる RuleR の有効性が実証されました。
RuleR のコードは https://github.com/tianyi-lab/RuleR で公開されています。
要約(オリジナル)
Despite the remarkable advancement of Large language models (LLMs), they still lack delicate controllability under sophisticated constraints, which is critical to enhancing their response quality and the user experience. While conditional supervised fine-tuning (SFT) can potentially improve LLM controllability, curating new SFT data to fulfill the constraints usually relies on human experts or proprietary LLMs, which is time-consuming and expensive. To bridge this gap, we propose Rule-based Data Recycling (RuleR), a human/LLM-free data augmentation method incorporating multiple constraints into the original SFT data. Instead of creating new responses from scratch, RuleR integrates linguistic or formatting rules into the original instructions and modifies the responses to fulfill the rule-defined constraints. Training on the ‘recycled’ data consolidates LLMs capability to generate constrained outputs. Extensive experiments demonstrate RuleR’s effectiveness in improving LLM controllability while maintaining general instruction-following performance. RuleR’s code is released on https://github.com/tianyi-lab/RuleR.
arxiv情報
著者 | Ming Li,Han Chen,Chenguang Wang,Dang Nguyen,Dianqi Li,Tianyi Zhou |
発行日 | 2024-10-29 14:28:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google