要約
高品質の命令データは、大規模な言語モデル(LLM)を開発するために重要ですが、既存のアプローチは、命令の複雑さを効果的に制御するために苦労しています。
TAG-Instructを提示します。これは、構造化されたセマンティック圧縮と制御された困難の増強を通じて命令の複雑さを高める新しいフレームワークです。
RAWテキストで動作する以前のプロンプトベースの方法とは異なり、Tag-Instructは命令をコンパクトなタグ空間に圧縮し、RLガイド付きタグ拡張を通じて体系的に複雑さを高めます。
大規模な実験を通じて、タグインストラクションが既存の命令の複雑さの増強アプローチよりも優れていることを示します。
私たちの分析により、タグ空間で動作すると、さまざまな命令合成フレームワーク全体で優れた制御可能性と安定性が提供されることが明らかになりました。
要約(オリジナル)
High-quality instruction data is crucial for developing large language models (LLMs), yet existing approaches struggle to effectively control instruction complexity. We present TAG-INSTRUCT, a novel framework that enhances instruction complexity through structured semantic compression and controlled difficulty augmentation. Unlike previous prompt-based methods operating on raw text, TAG-INSTRUCT compresses instructions into a compact tag space and systematically enhances complexity through RL-guided tag expansion. Through extensive experiments, we show that TAG-INSTRUCT outperforms existing instruction complexity augmentation approaches. Our analysis reveals that operating in tag space provides superior controllability and stability across different instruction synthesis frameworks.
arxiv情報
著者 | He Zhu,Zhiwen Ruan,Junyou Su,Xingwei He,Yun Chen,Wenjia Zhang,Guanhua Chen |
発行日 | 2025-06-02 11:00:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google