要約
帰納的バイアスは、すべての機械学習システムに固有のものであり、モデルが有限データからどのように一般化するかを形成します。
神経言語モデル(LMS)の場合、これらのバイアスが人間の処理の制約に沿っているか分岐するかについて議論が続きます。
この問題に対処するために、これらのバイアスの性質に関する制御された調査を可能にする定量的フレームワークを提案します。
私たちのフレームワーク内で、$ m $ -localエントロピー$ \ unicode {x2013} $を導入します。
確率的な有限状態のオートマトン(PFSA)によって定義された摂動自然言語corporaと言語の両方での実験では、より高い$ m $ localエントロピーを持つ言語がトランスとLSTM LMSが学習するのがより困難であることを示しています。
これらの結果は、神経LMSは、人間と同じように、言語の局所統計構造に非常に敏感であることを示唆しています。
要約(オリジナル)
Inductive biases are inherent in every machine learning system, shaping how models generalize from finite data. In the case of neural language models (LMs), debates persist as to whether these biases align with or diverge from human processing constraints. To address this issue, we propose a quantitative framework that allows for controlled investigations into the nature of these biases. Within our framework, we introduce $m$-local entropy$\unicode{x2013}$an information-theoretic measure derived from average lossy-context surprisal$\unicode{x2013}$that captures the local uncertainty of a language by quantifying how effectively the $m-1$ preceding symbols disambiguate the next symbol. In experiments on both perturbed natural language corpora and languages defined by probabilistic finite-state automata (PFSAs), we show that languages with higher $m$-local entropy are more difficult for Transformer and LSTM LMs to learn. These results suggest that neural LMs, much like humans, are highly sensitive to the local statistical structure of a language.
arxiv情報
著者 | Taiga Someya,Anej Svete,Brian DuSell,Timothy J. O’Donnell,Mario Giulianelli,Ryan Cotterell |
発行日 | 2025-06-05 15:21:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google