Testing the Predictions of Surprisal Theory in 11 Languages

要約

心理言語学の基本的な結果は、予測不可能な単語の処理に時間がかかるということです。
この発見に対する理論的な説明の 1 つは、単語の予測可能性、つまり文脈を考慮した負の対数確率を定量化する Surprisal Theory (Hale, 2001; Levy, 2008) です。
意外性理論の予測を裏付ける証拠は広く再現されていますが、そのほとんどは非常に狭い範囲のデータ、つまり英語のテキストを読むネイティブスピーカーに焦点を当てています。
実際、包括的な多言語分析は存在しません。
私たちは、5 つの言語族にまたがる 11 の異なる言語で驚きと読書時間の関係を調査することで、現在の文献におけるこのギャップに対処します。
単言語および多言語コーパスでトレーニングされた言語モデルから推定値を導き出し、サプライズ理論に関連する 3 つの予測をテストします。(i) サプライズが読書時間を予測するかどうか。
(ii) 予想される意外性、つまり文脈上のエントロピーが読書時間を予測するかどうか。
(iii) 驚きの時間と読書の時間との間のリンク関数が線形であるかどうか。
3 つの予測はすべて、言語を超えて裏付けられていることがわかります。
より多様な言語セットに焦点を当てることにより、これらの結果は、情報理論と言語間での増分言語処理との間のこれまでで最も強固なつながりを提供すると主張します。

要約(オリジナル)

A fundamental result in psycholinguistics is that less predictable words take a longer time to process. One theoretical explanation for this finding is Surprisal Theory (Hale, 2001; Levy, 2008), which quantifies a word’s predictability as its surprisal, i.e. its negative log-probability given a context. While evidence supporting the predictions of Surprisal Theory have been replicated widely, most have focused on a very narrow slice of data: native English speakers reading English texts. Indeed, no comprehensive multilingual analysis exists. We address this gap in the current literature by investigating the relationship between surprisal and reading times in eleven different languages, distributed across five language families. Deriving estimates from language models trained on monolingual and multilingual corpora, we test three predictions associated with surprisal theory: (i) whether surprisal is predictive of reading times; (ii) whether expected surprisal, i.e. contextual entropy, is predictive of reading times; (iii) and whether the linking function between surprisal and reading times is linear. We find that all three predictions are borne out crosslinguistically. By focusing on a more diverse set of languages, we argue that these results offer the most robust link to-date between information theory and incremental language processing across languages.

arxiv情報

著者 Ethan Gotlieb Wilcox,Tiago Pimentel,Clara Meister,Ryan Cotterell,Roger P. Levy
発行日 2023-07-07 15:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク