Transformer Language Models Handle Word Frequency in Prediction Head

要約

予測ヘッドは、Transformer 言語モデルの重要なコンポーネントです。
このコンポーネントは予測に直接影響を与えるにもかかわらず、トランスフォーマーの分析ではしばしば見落とされてきました。
この研究では、特にバイアス パラメーターに焦点を当てて、予測ヘッドの内部動作を調査します。
BERT および GPT-2 モデルを用いた実験では、それらの単語予測ヘッドのバイアスが、ロングテール学習で一般的に使用されるロジット調整方法と一致して、コーパス内の単語頻度を反​​映するモデルの能力に重要な役割を果たしていることが明らかになりました。
また、実際の自動回帰テキスト生成シナリオにおけるバイアス制御の効果も定量化します。
特定の設定の下では、テキストの品質を損なうことなく、より多様なテキストを生成できます。

要約(オリジナル)

Prediction head is a crucial component of Transformer language models. Despite its direct impact on prediction, this component has often been overlooked in analyzing Transformers. In this study, we investigate the inner workings of the prediction head, specifically focusing on bias parameters. Our experiments with BERT and GPT-2 models reveal that the biases in their word prediction heads play a significant role in the models’ ability to reflect word frequency in a corpus, aligning with the logit adjustment method commonly used in long-tailed learning. We also quantify the effect of controlling the biases in practical auto-regressive text generation scenarios; under a particular setting, more diverse text can be generated without compromising text quality.

arxiv情報

著者 Goro Kobayashi,Tatsuki Kuribayashi,Sho Yokoi,Kentaro Inui
発行日 2023-05-29 17:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク