Constraint Back-translation Improves Complex Instruction Following of Large Language Models

要約

大規模言語モデル (LLM) は、形式や長さなどに複雑な制約がある命令に従うのに苦労します。従来の命令チューニングの実践に従って、これまでの研究では、複雑な命令を高度な LLM に供給することによって生成された複雑な命令と応答のペアでポストトレーニングを実施していました。
ただし、高度な LLM であっても複雑な命令にうまく従うことができないため、生成されるデータの品質が制限されます。
この研究では、既存のデータセットに暗黙的な複雑な制約が本質的に含まれていることを発見し、新しいデータ生成手法である制約逆変換を提案します。
具体的には、既存のデータセット内の高品質な命令と応答のペアを取得し、高度な LLM のみを採用して、命令への応答によってすでに満たされている複雑な制約を追加します。これにより、コストとデータ ノイズが自然に削減されます。
実験では、Llama3-70B-Instruct を採用して制約を逆変換し、CRAB という名前の高品質で複雑な命令応答データセットを作成します。
広範な命令追従ベンチマークで評価したところ、CRAB でのポストトレーニングにより複数のバックボーン LLM の複雑な命令追従能力が向上することを示します。
さらに、制約の逆変換はトレーニング後の有用な補助トレーニング目標としても機能することがわかりました。
私たちのコード、データ、モデルは、将来の研究を促進するために公開されます。

要約(オリジナル)

Large language models (LLMs) struggle to follow instructions with complex constraints in format, length, etc. Following the conventional instruction-tuning practice, previous works conduct post-training on complex instruction-response pairs generated by feeding complex instructions to advanced LLMs. However, even advanced LLMs cannot follow complex instructions well, thus limiting the quality of generated data. In this work, we find that existing datasets inherently contain implicit complex constraints and propose a novel data generation technique, constraint back-translation. Specifically, we take the high-quality instruction-response pairs in existing datasets and only adopt advanced LLMs to add complex constraints already met by the responses to the instructions, which naturally reduces costs and data noise. In the experiments, we adopt Llama3-70B-Instruct to back-translate constraints and create a high-quality complex instruction-response dataset, named CRAB. We present that post-training on CRAB improves multiple backbone LLMs’ complex instruction-following ability, evaluated on extensive instruction-following benchmarks. We further find that constraint back-translation also serves as a useful auxiliary training objective in post-training. Our code, data, and models will be released to facilitate future research.

arxiv情報

著者 Yunjia Qi,Hao Peng,Xiaozhi Wang,Bin Xu,Lei Hou,Juanzi Li
発行日 2024-10-31 17:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク