要約
言語コーパスにおける単語の共起パターンには、驚くべき量の概念的知識が含まれています。
文脈内の単語を予測するように訓練された大規模言語モデル (LLM) は、これらのパターンを活用して、世界中の知識を必要とする多様な意味論的なタスクで優れたパフォーマンスを達成します。
LLM の意味論的能力に関する重要だが十分に研究されていない問題は、LLM が一般的な出来事についての一般化された知識を獲得しているかどうかです。
ここでは、5 つの事前トレーニング済み LLM (2018 年の BERT から 2023 年の MPT まで) が、同じイベントの信じられないほど異なるバージョンよりも、エージェントと患者の相互作用のもっともらしい説明に高い尤度を割り当てるかどうかをテストします。
最小限の文ペアの 3 つの精選されたセット (合計 n=1,215) を使用して、事前トレーニングされた LLM が実質的なイベント知識を有し、他の分布言語モデルを上回るパフォーマンスを発揮することがわかりました。
特に、ほとんどの場合、可能性のある出来事と不可能な出来事の可能性が高くなります (教師がラップトップを購入したのか、ラップトップが教師を購入したのか)。
ただし、LLM は、起こりそうな出来事と起こりそうにない出来事に対してあまり一貫性のない好みを示します (乳母が少年に家庭教師をした vs. 少年が乳母に家庭教師をした)。
追跡分析では、(i) LLM スコアはもっともらしさと表面レベルの文の特徴の両方によって左右されること、(ii) LLM スコアは構文のバリアント (能動的構文と受動的な構文) ではよく一般化しますが、意味論のバリアントではあまりよく一般化しないことを示します (
(iii) 一部の LLM エラーは人間の判断の曖昧さを反映しており、(iv) 文の妥当性は内部 LLM 表現の組織化された次元として機能します。
全体として、私たちの結果は、イベント知識の重要な側面が言語分布パターンから自然に現れることを示していますが、可能性/不可能性と可能性が高い/可能性の低いイベントの表現間のギャップも強調しています。
要約(オリジナル)
Word co-occurrence patterns in language corpora contain a surprising amount of conceptual knowledge. Large language models (LLMs), trained to predict words in context, leverage these patterns to achieve impressive performance on diverse semantic tasks requiring world knowledge. An important but understudied question about LLMs’ semantic abilities is whether they acquire generalized knowledge of common events. Here, we test whether five pre-trained LLMs (from 2018’s BERT to 2023’s MPT) assign higher likelihood to plausible descriptions of agent-patient interactions than to minimally different implausible versions of the same event. Using three curated sets of minimal sentence pairs (total n=1,215), we found that pre-trained LLMs possess substantial event knowledge, outperforming other distributional language models. In particular, they almost always assign higher likelihood to possible vs. impossible events (The teacher bought the laptop vs. The laptop bought the teacher). However, LLMs show less consistent preferences for likely vs. unlikely events (The nanny tutored the boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i) LLM scores are driven by both plausibility and surface-level sentence features, (ii) LLM scores generalize well across syntactic variants (active vs. passive constructions) but less well across semantic variants (synonymous sentences), (iii) some LLM errors mirror human judgment ambiguity, and (iv) sentence plausibility serves as an organizing dimension in internal LLM representations. Overall, our results show that important aspects of event knowledge naturally emerge from distributional linguistic patterns, but also highlight a gap between representations of possible/impossible and likely/unlikely events.
arxiv情報
著者 | Carina Kauf,Anna A. Ivanova,Giulia Rambelli,Emmanuele Chersoni,Jingyuan Selena She,Zawad Chowdhury,Evelina Fedorenko,Alessandro Lenci |
発行日 | 2023-10-26 13:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google