Probing the Category of Verbal Aspect in Transformer Language Models

要約

私たちは、事前学習済み言語モデル (PLM) がロシア語の言語的側面の文法カテゴリーをどのようにエンコードするかを調査します。
変圧器 LM におけるアスペクトのエンコーディングは、どの言語でもこれまで研究されたことがありません。
特定の課題は、「代替文脈」によって引き起こされます。つまり、完了体または不完了体が文法的および意味的に適切である場合です。
代替コンテキストおよび非代替コンテキストで BERT および RoBERTa を使用してプローブを実行します。
まず、動作プローブを通じてアスペクト予測におけるモデルのパフォーマンスを評価します。
次に、因果関係の調査によって、文脈上の表現が反事実的な表現に置き換えられたときのモデルのパフォーマンスを調べます。
これらの反事実は、「境界性」特徴、つまりコンテキスト内のアクションを特徴付ける意味論的特徴の値を変更します。
実験によれば、BERT と RoBERTa は、主に最終層でアスペクトをエンコードしていることが示されています。
反事実的介入は完了体と不完了体に反対の形で影響を与えますが、これは文法と一致しています。つまり、完了体は有界性の意味を追加することによってプラスの影響を受け、またその逆も同様です。
私たちの調査結果の実際的な意味は、アスペクトを予測する際に BERT の最後の層のみを微調整する方が、モデル全体を微調整するよりも高速かつ効果的であるということです。
このモデルには、代替コンテキストにおけるアスペクトに関する予測の不確実性が高く、記述されたアクションの境界性についての明示的なヒントが欠けている傾向があります。

要約(オリジナル)

We investigate how pretrained language models (PLM) encode the grammatical category of verbal aspect in Russian. Encoding of aspect in transformer LMs has not been studied previously in any language. A particular challenge is posed by ‘alternative contexts’: where either the perfective or the imperfective aspect is suitable grammatically and semantically. We perform probing using BERT and RoBERTa on alternative and non-alternative contexts. First, we assess the models’ performance on aspect prediction, via behavioral probing. Next, we examine the models’ performance when their contextual representations are substituted with counterfactual representations, via causal probing. These counterfactuals alter the value of the ‘boundedness’ feature–a semantic feature, which characterizes the action in the context. Experiments show that BERT and RoBERTa do encode aspect–mostly in their final layers. The counterfactual interventions affect perfective and imperfective in opposite ways, which is consistent with grammar: perfective is positively affected by adding the meaning of boundedness, and vice versa. The practical implications of our probing results are that fine-tuning only the last layers of BERT on predicting aspect is faster and more effective than fine-tuning the whole model. The model has high predictive uncertainty about aspect in alternative contexts, which tend to lack explicit hints about the boundedness of the described action.

arxiv情報

著者 Anisia Katinskaia,Roman Yangarber
発行日 2024-06-04 14:06:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク