Token-Level Fitting Issues of Seq2seq Models

要約

Sequence-to-sequence (seq2seq) モデルは、自然言語処理、コンピューター ビジョン、その他の深層学習タスクに広く使用されています。
早期停止でトレーニングされた seq2seq モデルには、トークン レベルで問題があることがわかりました。
特に、語彙内の一部のトークンは過剰適合を示しますが、他のトークンはトレーニングを停止すると適合不足になります。
実験によれば、この現象はさまざまなモデルに、さらには微調整された大規模な事前学習済みモデルにも蔓延していることがわかりました。
トークンレベルのフィッティングに影響を与える 3 つの主要な要因を特定します。これには、トークンの頻度、品詞、予測の不一致が含まれます。
さらに、言語、モデルサイズ、ドメイン、データスケール、事前トレーニングなどの外部要因もトークンのフィッティングに影響を与える可能性があることがわかりました。

要約(オリジナル)

Sequence-to-sequence (seq2seq) models have been widely used for natural language processing, computer vision, and other deep learning tasks. We find that seq2seq models trained with early-stopping suffer from issues at the token level. In particular, while some tokens in the vocabulary demonstrate overfitting, others underfit when training is stopped. Experiments show that the phenomena are pervasive in different models, even in fine-tuned large pretrained-models. We identify three major factors that influence token-level fitting, which include token frequency, parts-of-speech, and prediction discrepancy. Further, we find that external factors such as language, model size, domain, data scale, and pretraining can also influence the fitting of tokens.

arxiv情報

著者 Guangsheng Bao,Zhiyang Teng,Yue Zhang
発行日 2023-06-22 07:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク