On Robustness of Finetuned Transformer-based NLP Models

要約

BERT、GPT-2、T5 などのトランスフォーマーベースの事前トレーニング済みモデルは、多数の自然言語処理 (NLP) タスク向けに微調整されており、非常に効果的であることが示されています。
ただし、微調整中に、事前トレーニングされたチェックポイントに関してこれらのモデルのレイヤー間で何が変化するかについては十分に研究されていません。
さらに、これらのモデルは入力テキストの摂動に対してどの程度堅牢ですか?
堅牢性は、モデルが微調整された NLP タスクに応じて異なりますか?
いくつかの NLP タスク向けに微調整された BERT の堅牢性を研究する研究はいくつかありますが、エンコーダーのみ、デコーダーのみ、およびエンコーダー-デコーダー モデル全体でこの堅牢性を比較する厳密な研究はありません。
このペーパーでは、CKA と STIR という 2 つの指標を使用して、レイヤー全体にわたる事前トレーニング済み言語モデル表現と微調整された言語モデル表現の間の変化を特徴付けます。
さらに、一般言語理解評価 (GLUE) ベンチマークからの分類タスク、および要約、自由形式の生成、質問などの生成タスクにおける 8 つの異なるテキスト摂動を備えた 3 つの言語モデル (BERT、GPT-2、および T5) の堅牢性を研究します。
世代。
GPT-2 表現は、複数の種類の入力摂動に対して BERT や T5 よりも堅牢です。
モデルは広く優れた堅牢性を示しますが、名詞、動詞の削除、または文字の変更が最も影響を及ぼします。
全体として、この調査は、一般的な Transformer ベースのモデルの摂動特有の弱点についての貴重な洞察を提供します。入力を渡す際には、この点に留意する必要があります。
コードとモデルは公開されています [https://github.com/PavanNeerudu/Robustness-of-Transformers-models]。

要約(オリジナル)

Transformer-based pretrained models like BERT, GPT-2 and T5 have been finetuned for a large number of natural language processing (NLP) tasks, and have been shown to be very effective. However, while finetuning, what changes across layers in these models with respect to pretrained checkpoints is under-studied. Further, how robust are these models to perturbations in input text? Does the robustness vary depending on the NLP task for which the models have been finetuned? While there exists some work on studying the robustness of BERT finetuned for a few NLP tasks, there is no rigorous study that compares this robustness across encoder only, decoder only and encoder-decoder models. In this paper, we characterize changes between pretrained and finetuned language model representations across layers using two metrics: CKA and STIR. Further, we study the robustness of three language models (BERT, GPT-2 and T5) with eight different text perturbations on classification tasks from the General Language Understanding Evaluation (GLUE) benchmark, and generation tasks like summarization, free-form generation and question generation. GPT-2 representations are more robust than BERT and T5 across multiple types of input perturbation. Although models exhibit good robustness broadly, dropping nouns, verbs or changing characters are the most impactful. Overall, this study provides valuable insights into perturbation-specific weaknesses of popular Transformer-based models, which should be kept in mind when passing inputs. We make the code and models publicly available [https://github.com/PavanNeerudu/Robustness-of-Transformers-models].

arxiv情報

著者 Pavan Kalyan Reddy Neerudu,Subba Reddy Oota,Mounika Marreddy,Venkateswara Rao Kagita,Manish Gupta
発行日 2023-11-08 16:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク