Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

要約

影響機能はモデルトレーニングに関する重要な洞察を提供しますが、既存の方法は大きな計算コストと限られた一般化に悩まされています。
特に、最近の作品は、言語モデルを使用してデータの影響を計算するために、さまざまなメトリックとアルゴリズムを提案しています。言語モデルは、大規模なモデルやデータセットでは十分にスケーリングしません。
これは、計算に必要な高価な前方および後方パス、大規模なモデルを格納するための実質的なメモリ要件、および新しいデータへの影響推定値の一般化が不十分なためです。
このホワイトペーパーでは、影響値を推定するために、インフルエンキャネットワークと呼ばれる小さなニューラルネットワークの使用を調査し、最大99%のコスト削減を達成します。
私たちの評価は、フル言語モデルのサイズのわずか0.0027%モデルで影響値を推定できることを示しています(7Bおよび8Bバージョンを使用しています)。
影響値を推定するアルゴリズム(NN-CIFT:効率的な指導の微調整のためのニューラルネットワークと呼ばれる)を、一般的な命令微調整のためのサブセット選択の下流タスクに適用します。
私たちの研究では、4つの最先端の影響関数を含め、NN-Ciftと元の影響関数の間に大きなスピードアップにもかかわらず、パフォーマンスの妥協はありません。
Nn-Ciftの詳細なハイパーパラメーター分析を提供します。
この方法のコードは、https://github.com/agarwalishika/nn-ciftにあります。

要約(オリジナル)

Influence functions provide crucial insights into model training, but existing methods suffer from large computational costs and limited generalization. Particularly, recent works have proposed various metrics and algorithms to calculate the influence of data using language models, which do not scale well with large models and datasets. This is because of the expensive forward and backward passes required for computation, substantial memory requirements to store large models, and poor generalization of influence estimates to new data. In this paper, we explore the use of small neural networks — which we refer to as the InfluenceNetwork — to estimate influence values, achieving up to 99% cost reduction. Our evaluation demonstrates that influence values can be estimated with models just 0.0027% the size of full language models (we use 7B and 8B versions). We apply our algorithm of estimating influence values (called NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) to the downstream task of subset selection for general instruction fine-tuning. In our study, we include four state-of-the-art influence functions and show no compromise in performance, despite large speedups, between NN-CIFT and the original influence functions. We provide an in-depth hyperparameter analyses of NN-CIFT. The code for our method can be found here: https://github.com/agarwalishika/NN-CIFT.

arxiv情報

著者 Ishika Agarwal,Dilek Hakkani-Tür
発行日 2025-02-17 16:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク