要約
言語モデルは、予測に基づく言語理論を研究するための重要な枠組みを提供するが、大規模言語モデル(LLM)を用いた音韻解析は困難である。英語以外の音韻ベンチマークはほとんどなく、LLMで使用される標準的な入力表現(graphemesのサブワード)は音素の表現解析には適していない。本研究では、単語分割を音韻プロービング課題として使用する方法を示し、31言語にわたる子供の発話で学習した音素ベースの言語モデルが学習した表現を研究することを可能にする。単語分割の計算モデルに続いて、単語の開始点で予測誤差がピークに達するという観察結果を利用して、学習済みモデルから単語境界を抽出する教師なし手法を提示する。また、線形プローブを用いて、単語境界が学習中に出現しない場合でも、これらのモデルが暗黙的に単語境界を追跡することを確認する。この言語横断的な研究により、統計的学習による習得理論が裏付けられ、サブワード・トークナイザーの新しい学習方法が経験的に動機付けられる。
要約(オリジナル)
Language models provide a key framework for studying linguistic theories based on prediction, but phonological analysis using large language models (LLMs) is difficult; there are few phonological benchmarks beyond English and the standard input representation used in LLMs (subwords of graphemes) is not suitable for analyzing the representation of phonemes. In this work, we demonstrate how word segmentation can be used as a phonological probing task, allowing us to study the representations learned by phoneme-based language models trained on child-directed speech across 31 languages. Following computational models of word segmentation, we present unsupervised methods for extracting word boundaries from a trained model using the observation that prediction-error peaks at the start of words. We also use linear probes to identify that these models implicitly track word boundaries, even when they do not appear in training. This cross-lingual work corroborates statistical learning theories of acquisition and empirically motivates new methods for training subword tokenizers.
arxiv情報
著者 | Zébulon Goriely |
発行日 | 2025-04-04 10:42:56+00:00 |
arxivサイト | arxiv_id(pdf) |