Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants

要約

大規模言語モデル (LLM) を正確な命令と効果的に調整することは、現実世界の多様なシナリオに LLM を適用するために不可欠です。
現在の方法は、トレーニングおよび評価サンプルの多様性と複雑性を高めることに重点を置いていますが、LLM が同様の指示バリエーションに従う能力を正確に評価するには不十分です。
私たちは、複雑な命令をより単純なサブコンポーネントに分解し、それらを変更して新しいバリアントに再構築する効果的なデータ拡張手法を導入します。これにより、元の命令のコンテキストと複雑さを維持しながら、LLM の命令のトレーニングと評価に重要な変動性を導入します。
以下の精度。
この方法を使用して、LLM の微調整と評価の両方を行う DeMoRecon データセットを開発しました。
私たちの調査結果は、DeMoRecon で微調整された LLM は、私たちのベンチマークと一般的に使用される命令に従うベンチマークの両方でパフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

The effective alignment of Large Language Models (LLMs) with precise instructions is essential for their application in diverse real-world scenarios. Current methods focus on enhancing the diversity and complexity of training and evaluation samples, yet they fall short in accurately assessing LLMs’ ability to follow similar instruction variants. We introduce an effective data augmentation technique that decomposes complex instructions into simpler sub-components, modifies these, and reconstructs them into new variants, thereby preserves the original instruction’s context and complexity while introducing variability, which is critical for training and evaluating LLMs’ instruction-following precision. We developed the DeMoRecon dataset using this method to both fine-tune and evaluate LLMs. Our findings show that LLMs fine-tuned with DeMoRecon will gain significant performance boost on both ours and commonly used instructions-following benchmarks.

arxiv情報

著者 Jiuding Yang,Weidong Guo,Kaitong Yang,Xiangyang Li,Zhuwei Rao,Yu Xu,Di Niu
発行日 2024-07-31 10:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク