要約
命令チューニングにより、大規模な言語モデル(LLMS)が驚くべきパフォーマンスを実現することができましたが、その成功は大規模で高品質の命令応答ペアの可用性に大きく依存します。
ただし、データ生成をスケーリングするための現在の方法は、多くの場合、重要な側面を見落としています。指示と応答のアラインメントです。
高品質の命令応答ペアは、各コンポーネントの個々の品質によってはなく、互いに整合する程度によって定義されると仮定します。
これに対処するために、相互の制約を通じて指示と応答の間の一貫性を保証する相互整列フレームワーク(メイン)を提案します。
実験は、このフレームワーク内で微調整されたLlamaやMistralなどのモデルが、複数のベンチマークで従来の方法よりも優れていることを示しています。
このアプローチは、LLMのスケーラブルで高品質の命令チューニングを可能にする際の命令応答アラインメントの重要な役割を強調しています。
要約(オリジナル)
Instruction tuning has enabled large language models (LLMs) to achieve remarkable performance, but its success heavily depends on the availability of large-scale, high-quality instruction-response pairs. However, current methods for scaling up data generation often overlook a crucial aspect: the alignment between instructions and responses. We hypothesize that high-quality instruction-response pairs are not defined by the individual quality of each component, but by the extent of their alignment with each other. To address this, we propose a Mutual Alignment Framework (MAIN) that ensures coherence between the instruction and response through mutual constraints. Experiments demonstrate that models such as LLaMA and Mistral, fine-tuned within this framework, outperform traditional methods across multiple benchmarks. This approach underscores the critical role of instruction-response alignment in enabling scalable and high-quality instruction tuning for LLMs.
arxiv情報
著者 | Fanyi Yang,Jianfeng Liu,Xin Zhang,Haoyu Liu,Xixin Cao,Yuefeng Zhan,Hao Sun,Weiwei Deng,Feng Sun,Qi Zhang |
発行日 | 2025-04-17 13:02:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google