Dynamic Corrective Self-Distillation for Better Fine-Tuning of Pretrained Models

要約

私たちは、限られたラベル付きダウンストリーム データを使用した事前トレーニング済み言語モデル (PLM) の転移学習のプロセス中に遭遇する積極的な微調整という困難な問題に取り組みます。
この問題は主に、後続のタスクのパフォーマンスの低下を引き起こします。
従来の機械学習における適応ブースティング手法にヒントを得て、PLM の微調整を改善するための効果的な動的修正自己蒸留 (DCS) アプローチを紹介します。
私たちの手法には、反復ごとに、個々のデータ ポイントに割り当てられた重みを動的に調整することによって、スチューデント モデルが積極的に適応して修正する自己蒸留メカニズムの実行が含まれます。
この反復的な自己修正プロセスにより、PLM の全体的な微調整機能が大幅に強化され、パフォーマンスと堅牢性の向上につながります。
GLUE ベンチマークを使用して包括的な評価を実施し、さまざまな下流タスクにわたるさまざまな PLM の微調整プロセスを強化する際のこの方法の有効性を実証しました。

要約(オリジナル)

We tackle the challenging issue of aggressive fine-tuning encountered during the process of transfer learning of pre-trained language models (PLMs) with limited labeled downstream data. This problem primarily results in a decline in performance on the subsequent task. Inspired by the adaptive boosting method in traditional machine learning, we present an effective dynamic corrective self-distillation (DCS) approach to improve the fine-tuning of the PLMs. Our technique involves performing a self-distillation mechanism where, at each iteration, the student model actively adapts and corrects itself by dynamically adjusting the weights assigned to individual data points. This iterative self-correcting process significantly enhances the overall fine-tuning capability of PLMs, leading to improved performance and robustness. We conducted comprehensive evaluations using the GLUE benchmark demonstrating the efficacy of our method in enhancing the fine-tuning process for various PLMs across diverse downstream tasks.

arxiv情報

著者 Ibtihel Amara,Vinija Jain,Aman Chadha
発行日 2023-12-12 07:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク