要約
大規模な言語モデル(LLMS)の微調整では、いくつかの高品質の指示が多数の低品質の指示よりも優れていることがコンセンサスになっています。
現在、多くの命令選択方法が提案されていますが、これらの方法のほとんどはヒューリスティックな品質メトリックに基づいて命令を選択し、トレーニング前にデータ選択のみを考慮しています。
これらの設計により、命令の微調整の最適化が不十分になり、固定ヒューリスティックインジケーターは特定のタスクに最適化するのが難しいことがよくあります。
そこで、私たちは、モデルのパフォーマンス改善に対する指示の予想される影響に基づいて、各ステップで命令を選択する微調整プロセス全体を組み込んだ、動的でタスク指示駆動型の命令選択フレームワークの上昇(強化された適応命令選択)を設計しました。
私たちのアプローチはよく解釈可能であり、タスク固有の強力な最適化機能を備えています。
連続的な意思決定プロセスとして動的命令選択をモデル化することにより、RLを使用して選択戦略をトレーニングします。
広範な実験と結果分析は、他の命令選択方法と比較して、方法の優位性を証明します。
特に、Raiseは、フルデータトレーニングと比較してトレーニングステップの1 \%のみを更新することにより、優れたパフォーマンスを達成し、その効率と有効性を実証します。
要約(オリジナル)
In the instruction fine-tuning of large language models (LLMs), it has become a consensus that a few high-quality instructions are superior to a large number of low-quality instructions. At present, many instruction selection methods have been proposed, but most of these methods select instruction based on heuristic quality metrics, and only consider data selection before training. These designs lead to insufficient optimization of instruction fine-tuning, and fixed heuristic indicators are often difficult to optimize for specific tasks. So we designed a dynamic, task-objective-driven instruction selection framework RAISE(Reinforenced Adaptive Instruction SElection), which incorporates the entire instruction fine-tuning process into optimization, selecting instruction at each step based on the expected impact of instruction on model performance improvement. Our approach is well interpretable and has strong task-specific optimization capabilities. By modeling dynamic instruction selection as a sequential decision-making process, we use RL to train our selection strategy. Extensive experiments and result analysis prove the superiority of our method compared with other instruction selection methods. Notably, RAISE achieves superior performance by updating only 1\% of the training steps compared to full-data training, demonstrating its efficiency and effectiveness.
arxiv情報
著者 | Lv Qingsong,Yangning Li,Zihua Lan,Zishan Xu,Jiwei Tang,Yinghui Li,Wenhao Jiang,Hai-Tao Zheng,Philip S. Yu |
発行日 | 2025-04-14 16:23:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google