要約
大規模な言語モデルの開発により、簡単な指示に従う能力が大幅に改善されました。
ただし、複雑な指示を順守することは依然として大きな課題です。
複雑な命令を生成するための現在のアプローチは、多くの場合、現在の命令要件とは無関係であるか、限られたスケーラビリティと多様性に苦しんでいます。
さらに、逆翻訳などの方法は、単純な指導の生成に効果的ですが、大規模なWebコーパスの豊富な内容と構造を活用できません。
この論文では、制約を伴う複雑な命令を生成するための新しい自動反復洗練フレームワークを提案します。これは、実際のシナリオの要件をよりよく反映するだけでなく、複雑な指示に従うLLMSの能力を大幅に向上させます。
空気フレームワークは、次の2つの段階で構成されています。(1)ドキュメントから初期命令を生成します。
(2)貴重な制約を組み込むためにモデルの出力をドキュメントと比較することにより、LLM-As-Judgeガイダンスで指示を繰り返し改善します。
最後に、10K複雑な命令でAir-10Kデータセットを構築し、アプローチで生成された命令が複雑な指示に従うモデルの能力を大幅に改善し、既存の命令生成のための既存の方法を上回ることを示します。
要約(オリジナル)
With the development of large language models, their ability to follow simple instructions has significantly improved. However, adhering to complex instructions remains a major challenge. Current approaches to generating complex instructions are often irrelevant to the current instruction requirements or suffer from limited scalability and diversity. Moreover, methods such as back-translation, while effective for simple instruction generation, fail to leverage the rich contents and structures in large web corpora. In this paper, we propose a novel automatic iterative refinement framework to generate complex instructions with constraints, which not only better reflects the requirements of real scenarios but also significantly enhances LLMs’ ability to follow complex instructions. The AIR framework consists of two stages: (1)Generate an initial instruction from a document; (2)Iteratively refine instructions with LLM-as-judge guidance by comparing the model’s output with the document to incorporate valuable constraints. Finally, we construct the AIR-10K dataset with 10K complex instructions and demonstrate that instructions generated with our approach significantly improve the model’s ability to follow complex instructions, outperforming existing methods for instruction generation.
arxiv情報
著者 | Wei Liu,Yancheng He,Hui Huang,Chengwei Hu,Jiaheng Liu,Shilong Li,Wenbo Su,Bo Zheng |
発行日 | 2025-02-27 16:42:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google