MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

要約

データの品質と多様性は、効果的な命令調整データセットの構築の鍵です。
%オープンソース命令調整データセットの可用性が向上すると、膨大な量のデータから高品質で多様なサブセットを自動的に選択することが有利です。
%既存の方法は通常、インスタンスの品質に優先順位を付け、ヒューリスティックルールを使用して多様性を維持します。
%ただし、コレクション全体の包括的なビューがないこの存在は、しばしば最適ではない結果につながります。
%さらに、ヒューリスティックルールは一般に、埋め込みスペース内の距離またはクラスタリングに焦点を当てており、セマンティックスペースの複雑な指示の意図を正確にキャプチャできません。
%このギャップを埋めるために、データセットの情報コンテンツを定量化するための統一された方法を提案します。
この方法は、ラベルグラフを構築することによりセマンティックスペースをモデル化し、グラフ内の情報の分布に基づいて多様性を定量化します。
%このような測定に基づいて、セマンティックスペースで\ textbf {i} nformation \ textbf {g} ain(mig)を\ textbf {m}に\ textbf {m}に繰り返し選択する効率的なサンプリング方法を導入します。
さまざまなデータセットとベースモデルでの%実験は、MIGが一貫して最先端の方法を上回ることを示しています。
%顕著なのは、MIGによってサンプリングされた5 \%TULU3データで微調整されたモデルは、完全なデータセットでトレーニングされた公式のSFTモデルに匹敵するパフォーマンスを達成し、Alpacaevalで+5.73 \%、WildBenchで+6.89 \%の改善を実現します。

要約(オリジナル)

Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to \textbf{M}aximize the \textbf{I}nformation \textbf{G}ain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73\% on AlpacaEval and +6.89\% on Wildbench.

arxiv情報

著者 Yicheng Chen,Yining Li,Kai Hu,Zerun Ma,Haochen Ye,Kai Chen
発行日 2025-04-18 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク