Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification

要約

大規模なテキスト データで事前トレーニングされた言語モデルは、さまざまな種類の知識を同時にエンコードすることが示されています。
従来、新しいタスクやデータに適応する場合は、最後の層の機能のみが使用されます。
私たちは、深い事前トレーニング済みモデルを使用または微調整する場合、下流のタスクに関連する可能性のある中間層の機能が深く埋め込まれすぎて、必要なサンプルやステップの点で効率的に使用できないと主張しています。
これをテストするために、最終層以外からの信号を再表面化するのに役立つ、新しい層融合手法である Depth-Wise Attendant (DWAtt) を提案します。
DWAtt を基本的な連結ベースのレイヤー融合手法 (Concat) と比較し、両方をより深いモデル ベースラインと比較します。すべてが同様のパラメーター バジェット内に保たれています。
私たちの調査結果は、特に数ショット設定において、DWAtt と Concat がベースラインよりもステップ効率とサンプル効率が高いことを示しています。
DWAtt は、より大きなデータ サイズでは Concat よりも優れたパフォーマンスを発揮します。
CoNLL-03 NER では、レイヤー フュージョンは、さまざまな数ショット サイズで 3.68 ~ 9.73% の F1 ゲインを示します。
提示されたレイヤー融合モデルは、異なるデータ サイズ、アーキテクチャ、トレーニング制約を持つさまざまなトレーニング シナリオでベースラインを大幅に上回ります。

要約(オリジナル)

Language Models pretrained on large textual data have been shown to encode different types of knowledge simultaneously. Traditionally, only the features from the last layer are used when adapting to new tasks or data. We put forward that, when using or finetuning deep pretrained models, intermediate layer features that may be relevant to the downstream task are buried too deep to be used efficiently in terms of needed samples or steps. To test this, we propose a new layer fusion method: Depth-Wise Attention (DWAtt), to help re-surface signals from non-final layers. We compare DWAtt to a basic concatenation-based layer fusion method (Concat), and compare both to a deeper model baseline — all kept within a similar parameter budget. Our findings show that DWAtt and Concat are more step- and sample-efficient than the baseline, especially in the few-shot setting. DWAtt outperforms Concat on larger data sizes. On CoNLL-03 NER, layer fusion shows 3.68–9.73% F1 gain at different few-shot sizes. The layer fusion models presented significantly outperform the baseline in various training scenarios with different data sizes, architectures, and training constraints.

arxiv情報

著者 Muhammad ElNokrashy,Badr AlKhamissi,Mona Diab
発行日 2024-05-07 16:11:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク