On the Proper Treatment of Tokenization in Psycholinguistics

要約

言語モデルは、計算心理言語学において、ある言語モデルにおける注目領域(文字の部分列)の負の対数確率(驚き)と、その領域に対する注視時間などで運用される、読者が経験する認知的コストとを関連付ける理論を検証するために広く使用されている。しかし、現代の言語モデルを心理言語学的研究に応用することは、モデルを学習する中間段階としてトークン化を使用する慣行によって複雑になっている。そうすることで、文字列の言語モデルではなく、トークン文字列の言語モデルになってしまう。興味深いことに、関心領域とトークン文字列は一般的にずれている。本論文では、心理言語学的研究において、トークン・レベルの言語モデルを、関心領域の驚きを計算するために使用する前に、文字レベルの言語モデルに(近似的に)マージナル化すべきであると主張する。トークン・レベルのモデルを文字レベルのモデルにマージナル化するという我々の提案は、トークン化スキームとは無関係にこのズレの問題を解決する。経験的に、我々は様々なフォーカルエリアを発見し、その驚きが、注目領域自体の驚きに比べて、より優れた心理測定予測因子であることを発見した。

要約(オリジナル)

Language models are widely used in computational psycholinguistics to test theories that relate the negative log probability (the surprisal) of a region of interest (a substring of characters) under a language model to its cognitive cost experienced by readers, as operationalized, for example, by gaze duration on the region. However, the application of modern language models to psycholinguistic studies is complicated by the practice of using tokenization as an intermediate step in training a model. Doing so results in a language model over token strings rather than one over character strings. Vexingly, regions of interest are generally misaligned with these token strings. The paper argues that token-level language models should be (approximately) marginalized into character-level language models before they are used in psycholinguistic studies to compute the surprisal of a region of interest; then, the marginalized character-level language model can be used to compute the surprisal of an arbitrary character substring, which we term a focal area, that the experimenter may wish to use as a predictor. Our proposal of marginalizing a token-level model into a character-level one solves this misalignment issue independently of the tokenization scheme. Empirically, we discover various focal areas whose surprisal is a better psychometric predictor than the surprisal of the region of interest itself.

arxiv情報

著者 Mario Giulianelli,Luca Malagutti,Juan Luis Gastaldi,Brian DuSell,Tim Vieira,Ryan Cotterell
発行日 2024-10-03 17:18:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク