A Psycholinguistic Analysis of BERT’s Representations of Compounds


この研究では、BERT によって学習された化合物、つまり日光やボディー ガードなどの表現の意味表現を研究します。
トランスフォーマーのセマンティック情報を単語レベルで調査する最近の研究に基づいて構築し、全体的な意味が (さまざまな程度で) トランスフォーマーのセマンティクスに依存する表現 (たとえば、日光) を扱うときに、BERT が人間のセマンティックな直感と一致するかどうかをテストします。
複合意味分析の 2 つの心理言語学的尺度に関する人間の判断を含むデータセットを活用します: 語彙素意味優位性 (LMD; 複合意味に対する各構成要素の重みを定量化) および意味透明性 (ST; 複合意味が回復可能な範囲を評価)
これらの調査結果は、きめ細かなセマンティック現象を処理する際の BERT の能力に新たな光を当てます。


This work studies the semantic representations learned by BERT for compounds, that is, expressions such as sunlight or bodyguard. We build on recent studies that explore semantic information in Transformers at the word level and test whether BERT aligns with human semantic intuitions when dealing with expressions (e.g., sunlight) whose overall meaning depends — to a various extent — on the semantics of the constituent words (sun, light). We leverage a dataset that includes human judgments on two psycholinguistic measures of compound semantic analysis: lexeme meaning dominance (LMD; quantifying the weight of each constituent toward the compound meaning) and semantic transparency (ST; evaluating the extent to which the compound meaning is recoverable from the constituents’ semantics). We show that BERT-based measures moderately align with human intuitions, especially when using contextualized representations, and that LMD is overall more predictable than ST. Contrary to the results reported for ‘standard’ words, higher, more contextualized layers are the best at representing compound meaning. These findings shed new light on the abilities of BERT in dealing with fine-grained semantic phenomena. Moreover, they can provide insights into how speakers represent compounds.


著者 Lars Buijtelaar,Sandro Pezzelle
発行日 2023-02-14 18:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク