要約
大規模な言語モデル(LLMS)の命令調整における最近の進歩は、小規模で高品質のデータセットがLLMSに命令検討機能を大幅に装備できることを示唆しており、多くの場合、品質と冗長性の問題に負担をかける大きなデータセットを上回っています。
ただし、この課題は、大規模なデータセットから貴重なサブセットを自動的に識別して、命令チューニングの有効性と効率性の両方を高めることにあります。
この論文では、最初に、多様性、難易度、および信頼性の3つの異なる側面に基づいてデータ選択基準を確立し、次にスコアリングと選択の2つの重要なステップで構成されるD3メソッドを提案します。
具体的には、スコアリングステップでは、サンプルの識別性を測定する多様性関数を定義し、コンテキスト指向の生成多様性の干渉を軽減することにより、サンプルの難易度を評価するための不確実性ベースの予測難易度を導入します。
さらに、信頼性評価のために外部LLMを統合します。
選択ステップでは、D3加重コアセット目標を策定します。これは、最も価値のあるサブセットを解くためにデータ値の3つの側面を共同で最適化します。
D3の2つのステップは、複数のラウンドを反復することができ、フィードバックを組み込んで選択焦点を適応的に改善します。
3つのデータセットでの実験は、データセット全体の10%未満を使用して、競争力のあるまたは優れた指導に従う機能を備えたLLMSを授与する際のD3の有効性を示しています。
要約(オリジナル)
Recent advancements in instruction tuning for large language models (LLMs) suggest that a small, high-quality dataset can significantly equip LLMs with instruction-following capabilities, outperforming large datasets often burdened by quality and redundancy issues. However, the challenge lies in automatically identifying valuable subsets from large datasets to boost both the effectiveness and efficiency of instruction tuning. In this paper, we first establish data selection criteria based on three distinct aspects of data value: diversity, difficulty, and dependability, and then propose the D3 method comprising two key steps of scoring and selection. Specifically, in the scoring step, we define the diversity function to measure sample distinctiveness and introduce the uncertainty-based prediction difficulty to evaluate sample difficulty by mitigating the interference of context-oriented generation diversity. Additionally, we integrate an external LLM for dependability assessment. In the selection step, we formulate the D3 weighted coreset objective, which jointly optimizes three aspects of data value to solve for the most valuable subset. The two steps of D3 can iterate multiple rounds, incorporating feedback to refine the selection focus adaptively. Experiments on three datasets demonstrate the effectiveness of D3 in endowing LLMs with competitive or even superior instruction-following capabilities using less than 10% of the entire dataset.
arxiv情報
著者 | Jia Zhang,Chen-Xi Zhang,Yao Liu,Yi-Xuan Jin,Xiao-Wen Yang,Bo Zheng,Yi Liu,Lan-Zhe Guo |
発行日 | 2025-03-14 14:28:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google