The Impact of Token Granularity on the Predictive Power of Language Model Surprisal

要約

単語ごとの言語モデルのサプライズは、人間の読者の増分処理をモデル化するためによく使用されますが、これにより、言語モデリングにおけるさまざまな選択がその予測力にどのように影響するかという疑問が生じます。
コグニティブ モデリングで見落とされてきた要素の 1 つは、サブワード トークンの粒度です。サブワード トークンは、単語の長さと頻度に関する情報を明示的にエンコードし、最終的に学習されるベクトル表現の品質に影響を与えます。
この論文では、トークンの粒度を操作し、自然主義的なテキストと庭の小道の構造の処理の難しさを説明するサプライズの能力に対するその影響を評価する実験を紹介します。
自然主義的な読書時間を用いた実験では、トークンの粒度が驚きに大きく影響することが明らかになり、語彙サイズ 8,000 で定義されたトークンにより、最も予測性の高い驚きが得られます。
対照的に、ガーデンパスの構築では、より粒度の粗いトークンでトレーニングされた言語モデルは、一般に重要な領域に高い意外性を割り当て、構文に対する感度が高まっていることを示唆しています。
総合すると、これらの結果は、認知モデリングにおける言語モデルのサプライズの品質にトークンの粒度が大きな役割を果たしているということを示唆しています。

要約(オリジナル)

Word-by-word language model surprisal is often used to model the incremental processing of human readers, which raises questions about how various choices in language modeling influence its predictive power. One factor that has been overlooked in cognitive modeling is the granularity of subword tokens, which explicitly encodes information about word length and frequency, and ultimately influences the quality of vector representations that are learned. This paper presents experiments that manipulate the token granularity and evaluate its impact on the ability of surprisal to account for processing difficulty of naturalistic text and garden-path constructions. Experiments with naturalistic reading times reveal a substantial influence of token granularity on surprisal, with tokens defined by a vocabulary size of 8,000 resulting in surprisal that is most predictive. In contrast, on garden-path constructions, language models trained on coarser-grained tokens generally assigned higher surprisal to critical regions, suggesting their increased sensitivity to syntax. Taken together, these results suggest a large role of token granularity on the quality of language model surprisal for cognitive modeling.

arxiv情報

著者 Byung-Doh Oh,William Schuler
発行日 2024-12-16 16:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク