要約
この研究では、BERTアーキテクチャ(BERTベースのモデル)に基づいた微調整されたエンコーダのみのモデルの注意パターンを分析し、2つの異なるタイプのマルチワード式(MWE)、イディオムとマイクロシンガーユニット(MSUS)に向けて分析します。
イディオムは、セマンティックな非相続性の課題を提示しますが、MSUSは標準的な文法分類に適合しない型にはまらない構文行動を示しています。
特定のタスクの微調整BERTベースのモデルがMWEへの注意に影響を与えるかどうか、およびこの注意がセマンティックタスクと構文タスクの間でどのように異なるかを理解することを目指しています。
事前訓練と微調整されたBERTベースのモデルの両方で、MWEへの注意スコアを調べます。
私たちは、英語、ドイツ語、オランダ語、ポーランド語、ロシア語、ウクライナ語の6つのインドヨーロッパ言語で単一言語モデルとデータセットを利用しています。
我々の結果は、微調整がモデルがMWEに注意を割り当てる方法に大きく影響することを示しています。
具体的には、セマンティックタスクで微調整されたモデルは、レイヤー間でより均等に慣用的な表現に注意を分配する傾向があります。
構文タスクで微調整されたモデルは、構文処理要件に対応する下層のMSUSへの注意の増加を示しています。
要約(オリジナル)
This study analyzes the attention patterns of fine-tuned encoder-only models based on the BERT architecture (BERT-based models) towards two distinct types of Multiword Expressions (MWEs): idioms and microsyntactic units (MSUs). Idioms present challenges in semantic non-compositionality, whereas MSUs demonstrate unconventional syntactic behavior that does not conform to standard grammatical categorizations. We aim to understand whether fine-tuning BERT-based models on specific tasks influences their attention to MWEs, and how this attention differs between semantic and syntactic tasks. We examine attention scores to MWEs in both pre-trained and fine-tuned BERT-based models. We utilize monolingual models and datasets in six Indo-European languages – English, German, Dutch, Polish, Russian, and Ukrainian. Our results show that fine-tuning significantly influences how models allocate attention to MWEs. Specifically, models fine-tuned on semantic tasks tend to distribute attention to idiomatic expressions more evenly across layers. Models fine-tuned on syntactic tasks show an increase in attention to MSUs in the lower layers, corresponding with syntactic processing requirements.
arxiv情報
著者 | Iuliia Zaitova,Vitalii Hirak,Badr M. Abdullah,Dietrich Klakow,Bernd Möbius,Tania Avgustinova |
発行日 | 2025-05-09 13:57:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google