Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data

要約

実際の NLP アプリケーションでは、大規模言語モデル (LLM) は、膨大なデータセットに対する広範なトレーニングにより、有望なソリューションを提供します。
ただし、LLM はサイズが大きく、高い計算要求があるため、多くのアプリケーション、特にさらなる微調整が必​​要な場合の実用性が制限されます。
これらの制限に対処するために、通常は小規模なモデルを導入することが推奨されます。
ただし、ラベル付きデータが不足しているため、トレーニングが妨げられています。
対照的に、ラベルのないデータは、LLM を使用して、より小さなモデルをトレーニングするための疑似ラベルを生成することで容易に利用できることがよくあります。
これにより、計算コストを削減しながら、小規模なモデル (生徒) が LLM (教師) から知識を取得できるようになります。
このプロセスでは、ノイズの多い疑似ラベルの可能性などの課題が生じます。
したがって、データ利用効率を向上させながらモデルのパフォーマンスを向上させるには、高品質で有益なデータを選択することが重要です。
これに対処するために、LLM からの知識蒸留のために、より少ない計算リソースとより少ないデータでの学習を可能にする LLKD を提案します。
LLKD は、教師と生徒の両方からの信号を組み込む適応型サンプル選択方法です。
具体的には、教師がラベル付けに高い自信を示し、信頼できるラベルであることを示すサンプルと、生徒が高い情報ニーズを示し、さらなる学習が必要な困難なサンプルを特定するサンプルを優先します。
私たちの包括的な実験では、LLKD がさまざまなデータセットにわたって優れたパフォーマンスを実現し、より高いデータ効率を実現していることが示されています。

要約(オリジナル)

In real-world NLP applications, Large Language Models (LLMs) offer promising solutions due to their extensive training on vast datasets. However, the large size and high computation demands of LLMs limit their practicality in many applications, especially when further fine-tuning is required. To address these limitations, smaller models are typically preferred for deployment. However, their training is hindered by the scarcity of labeled data. In contrast, unlabeled data is often readily which can be leveraged by using LLMs to generate pseudo-labels for training smaller models. This enables the smaller models (student) to acquire knowledge from LLMs(teacher) while reducing computational costs. This process introduces challenges, such as potential noisy pseudo-labels. Selecting high-quality and informative data is therefore critical to enhance model performance while improving the efficiency of data utilization. To address this, we propose LLKD that enables Learning with Less computational resources and less data for Knowledge Distillation from LLMs. LLKD is an adaptive sample selection method that incorporates signals from both the teacher and student. Specifically, it prioritizes samples where the teacher demonstrates high confidence in its labeling, indicating reliable labels, and where the student exhibits a high information need, identifying challenging samples that require further learning. Our comprehensive experiments show that LLKD achieves superior performance across various datasets with higher data efficiency.

arxiv情報

著者 Juanhui Li,Sreyashi Nag,Hui Liu,Xianfeng Tang,Sheikh Sarwar,Limeng Cui,Hansu Gu,Suhang Wang,Qi He,Jiliang Tang
発行日 2024-11-12 18:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク