Comparative Analysis of Efficient Adapter-Based Fine-Tuning of State-of-the-Art Transformer Models

要約

この研究では、SuperGLUE ベンチマークの教師ありバイナリ分類タスクおよび Kaggle の教師ありマルチクラス ニュース カテゴリ分類タスクにおけるさまざまなアダプター アーキテクチャの有効性を調査します。
具体的には、従来の微調整と 9 つの最先端 (SoTA) アダプター アーキテクチャを使用して、DistilBERT、ELECTRA、BART という 3 つのトランスフォーマー モデルの分類パフォーマンスと時間計算量を比較します。
私たちの分析では、アダプター アーキテクチャ間のパフォーマンスの違いが明らかになり、わずかなトレーニング時間で微調整と比較して同等以上のパフォーマンスを達成できる能力が強調されています。
同様の結果が新しい分類タスクでも観察されており、私たちの発見をさらに裏付け、アダプターが微調整の効率的かつ柔軟な代替手段であることを実証しています。
この研究は、多様な自然言語処理 (NLP) アプリケーションでアダプターを選択および実装するための貴重な洞察とガイドラインを提供します。

要約(オリジナル)

In this work, we investigate the efficacy of various adapter architectures on supervised binary classification tasks from the SuperGLUE benchmark as well as a supervised multi-class news category classification task from Kaggle. Specifically, we compare classification performance and time complexity of three transformer models, namely DistilBERT, ELECTRA, and BART, using conventional fine-tuning as well as nine state-of-the-art (SoTA) adapter architectures. Our analysis reveals performance differences across adapter architectures, highlighting their ability to achieve comparable or better performance relative to fine-tuning at a fraction of the training time. Similar results are observed on the new classification task, further supporting our findings and demonstrating adapters as efficient and flexible alternatives to fine-tuning. This study provides valuable insights and guidelines for selecting and implementing adapters in diverse natural language processing (NLP) applications.

arxiv情報

著者 Saad Mashkoor Siddiqui,Mohammad Ali Sheikh,Muhammad Aleem,Kajol R Singh
発行日 2025-01-14 17:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク