要約
特定のタスクの微調整BERTモデルの場合、最終レイヤーの出力の一部を選択して、新しく作成された完全に接続されたレイヤーに入力することが一般的です。
ただし、最終レイヤーのどの部分を選択し、レイヤーの各次元がどのような情報を保持するかは不明のままです。
この研究では、接着剤タスク上のバート微調整を通じて、トークンベクター、層、および寸法の有効性と冗長性を包括的に調査しました。
結果は、最終層のCLSベクトル以外の出力には同等の情報が含まれており、ほとんどのタスクには2〜3の寸法のみが必要であり、下層の寄与は減少するが、より高い層の間にはほとんど差がないことを示しました。
また、事前に訓練された層の凍結の影響を評価し、クロスファインチューニングを実施しました。ここでは、微調整がさまざまなタスクに連続的に適用されます。
調査結果は、隠れ層が微調整中に大幅に変化する可能性があることを示唆しており、Bertはかなりの冗長性を持ち、複数のタスクを同時に処理できるようにし、その寸法の数は過剰になる可能性があります。
要約(オリジナル)
When fine-tuning BERT models for specific tasks, it is common to select part of the final layer’s output and input it into a newly created fully connected layer. However, it remains unclear which part of the final layer should be selected and what information each dimension of the layers holds. In this study, we comprehensively investigated the effectiveness and redundancy of token vectors, layers, and dimensions through BERT fine-tuning on GLUE tasks. The results showed that outputs other than the CLS vector in the final layer contain equivalent information, most tasks require only 2-3 dimensions, and while the contribution of lower layers decreases, there is little difference among higher layers. We also evaluated the impact of freezing pre-trained layers and conducted cross-fine-tuning, where fine-tuning is applied sequentially to different tasks. The findings suggest that hidden layers may change significantly during fine-tuning, BERT has considerable redundancy, enabling it to handle multiple tasks simultaneously, and its number of dimensions may be excessive.
arxiv情報
著者 | Shion Fukuhata,Yoshinobu Kano |
発行日 | 2025-04-07 11:53:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google