要約
大規模な言語モデル(LLM)は、形式、長さなどの複雑な制約を伴う命令に従うのに苦労しています。従来の命令調整慣行に続いて、以前の作品は、複雑な指示を高度なLLMに供給することによって生成される複雑な命令応答ペアのトレーニング後に行われます。
ただし、高度なLLMでさえ複雑な命令に適していないため、生成されたデータの品質が制限されます。
この作業では、既存のデータセットには本質的に暗黙的な複雑な制約が含まれており、新しいデータ生成手法、制約逆転移を提案することがわかります。
具体的には、既存のデータセットで高品質の命令応答ペアを取り、高度なLLMを採用して、コストとデータノイズを自然に削減する命令への応答によってすでに満たされている複雑な制約を追加します。
実験では、llama3-70b-instructを採用して制約を逆翻訳し、Crabという名前の高品質の複雑な命令応答データセットを作成します。
CRABでのトレーニング後のトレーニングにより、複数のバックボーンLLMSの複雑な命令に従う能力が改善され、広範な命令に従うベンチマークで評価されます。
さらに、制約の逆翻訳は、トレーニング後の有用な補助トレーニング目標としても機能することがわかります。
私たちのコード、データ、モデルは、将来の研究を促進するためにリリースされます。
要約(オリジナル)
Large language models (LLMs) struggle to follow instructions with complex constraints in format, length, etc. Following the conventional instruction-tuning practice, previous works conduct post-training on complex instruction-response pairs generated by feeding complex instructions to advanced LLMs. However, even advanced LLMs cannot follow complex instructions well, thus limiting the quality of generated data. In this work, we find that existing datasets inherently contain implicit complex constraints and propose a novel data generation technique, constraint back-translation. Specifically, we take the high-quality instruction-response pairs in existing datasets and only adopt advanced LLMs to add complex constraints already met by the responses to the instructions, which naturally reduces costs and data noise. In the experiments, we adopt Llama3-70B-Instruct to back-translate constraints and create a high-quality complex instruction-response dataset, named CRAB. We present that post-training on CRAB improves multiple backbone LLMs’ complex instruction-following ability, evaluated on extensive instruction-following benchmarks. We further find that constraint back-translation also serves as a useful auxiliary training objective in post-training. Our code, data, and models will be released to facilitate future research.
arxiv情報
著者 | Yunjia Qi,Hao Peng,Xiaozhi Wang,Bin Xu,Lei Hou,Juanzi Li |
発行日 | 2025-04-29 15:38:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google