A Psycholinguistic Analysis of BERT’s Representations of Compounds

要約

この研究では、BERT によって学習された化合物、つまり日光やボディー ガードなどの表現の意味表現を研究します。
トランスフォーマーのセマンティック情報を単語レベルで調査する最近の研究に基づいて構築し、全体的な意味が (さまざまな程度で) トランスフォーマーのセマンティクスに依存する表現 (たとえば、日光) を扱うときに、BERT が人間のセマンティックな直感と一致するかどうかをテストします。
構成語(太陽、光)。
複合意味分析の 2 つの心理言語学的尺度に関する人間の判断を含むデータセットを活用します: 語彙素意味優位性 (LMD; 複合意味に対する各構成要素の重みを定量化) および意味透明性 (ST; 複合意味が回復可能な範囲を評価)
構成要素のセマンティクスから)。
特にコンテキスト化された表現を使用する場合、BERTベースの測定は人間の直感と適度に一致し、LMDはSTよりも全体的に予測可能であることを示しています。
「標準的な」単語について報告された結果とは対照的に、より上位の、よりコンテキスト化されたレイヤーは、複合的な意味を表現するのに最適です。
これらの調査結果は、きめ細かなセマンティック現象を処理する際の BERT の能力に新たな光を当てます。
さらに、話者が化合物をどのように表しているかについての洞察を提供できます。

要約(オリジナル)

This work studies the semantic representations learned by BERT for compounds, that is, expressions such as sunlight or bodyguard. We build on recent studies that explore semantic information in Transformers at the word level and test whether BERT aligns with human semantic intuitions when dealing with expressions (e.g., sunlight) whose overall meaning depends — to a various extent — on the semantics of the constituent words (sun, light). We leverage a dataset that includes human judgments on two psycholinguistic measures of compound semantic analysis: lexeme meaning dominance (LMD; quantifying the weight of each constituent toward the compound meaning) and semantic transparency (ST; evaluating the extent to which the compound meaning is recoverable from the constituents’ semantics). We show that BERT-based measures moderately align with human intuitions, especially when using contextualized representations, and that LMD is overall more predictable than ST. Contrary to the results reported for ‘standard’ words, higher, more contextualized layers are the best at representing compound meaning. These findings shed new light on the abilities of BERT in dealing with fine-grained semantic phenomena. Moreover, they can provide insights into how speakers represent compounds.

arxiv情報

著者 Lars Buijtelaar,Sandro Pezzelle
発行日 2023-02-14 18:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク