要約
この研究では、下流タスクの微調整プロセス中に、BERT モデルのトークン間の注意スコアが語彙カテゴリに基づいて大きく異なるかどうかを調べます。
人間の言語処理では、構文情報と意味情報が異なる方法で解析されるという概念からインスピレーションを得て、語彙カテゴリに従って文内のトークンを分類し、これらのカテゴリ間の注意スコアの変化に焦点を当てます。
私たちの仮説では、意味情報を重視する下流タスクでは内容語を中心とした注意スコアが強化され、構文情報を重視する場合は機能語を中心とした注意スコアが強化されると仮定しています。
GLUE ベンチマーク データセットの 6 つのタスクに対して実行された実験を通じて、微調整プロセスに関する仮説が実証されました。
さらに、追加の調査により、タスクに関係なく、特定の語彙カテゴリにより多くのバイアスを一貫して割り当てる BERT 層の存在が明らかになり、タスクに依存しない語彙カテゴリの好みの存在が強調されます。
要約(オリジナル)
This study examines whether the attention scores between tokens in the BERT model significantly vary based on lexical categories during the fine-tuning process for downstream tasks. Drawing inspiration from the notion that in human language processing, syntactic and semantic information is parsed differently, we categorize tokens in sentences according to their lexical categories and focus on changes in attention scores among these categories. Our hypothesis posits that in downstream tasks that prioritize semantic information, attention scores centered on content words are enhanced, while in cases emphasizing syntactic information, attention scores centered on function words are intensified. Through experimentation conducted on six tasks from the GLUE benchmark dataset, we substantiate our hypothesis regarding the fine-tuning process. Furthermore, our additional investigations reveal the presence of BERT layers that consistently assign more bias to specific lexical categories, irrespective of the task, highlighting the existence of task-agnostic lexical category preferences.
arxiv情報
著者 | Dongjun Jang,Sungjoo Byun,Hyopil Shin |
発行日 | 2024-03-25 06:18:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google