BabyLM’s First Words: Word Segmentation as a Phonological Probing Task

要約

言語モデルは、予測に基づいて言語理論を研究するための重要なフレームワークを提供しますが、大規模な言語モデル(LLM)を使用した音韻分析は困難です。
英語を超えて音韻ベンチマークはほとんどありません。LLMSで使用される標準の入力表現(グラフメムのサブワード)は、音素の表現を分析するのに適していません。
この作業では、単語セグメンテーションを音韻プロービングタスクとしてどのように使用できるかを示し、31の言語で児童指向のスピーチで訓練された音韻ベースの言語モデルによって学んだ表現を研究することができます。
単語セグメンテーションの計算モデルに従って、予測と誤差が単語の開始時にピークに達するという観察を使用して、訓練されたモデルから単語の境界を抽出するための監視されていない方法を提示します。
また、線形プローブを使用して、これらのモデルがトレーニングに表示されない場合でも、単語の境界を暗黙的に追跡することを識別します。
この横断的な作業は、習得の統計学習理論を裏付け、サブワードトニーザーをトレーニングするための新しい方法を経験的に動機付けます。

要約(オリジナル)

Language models provide a key framework for studying linguistic theories based on prediction, but phonological analysis using large language models (LLMs) is difficult; there are few phonological benchmarks beyond English and the standard input representation used in LLMs (subwords of graphemes) is not suitable for analyzing the representation of phonemes. In this work, we demonstrate how word segmentation can be used as a phonological probing task, allowing us to study the representations learned by phoneme-based language models trained on child-directed speech across 31 languages. Following computational models of word segmentation, we present unsupervised methods for extracting word boundaries from a trained model using the observation that prediction-error peaks at the start of words. We also use linear probes to identify that these models implicitly track word boundaries, even when they do not appear in training. This cross-lingual work corroborates statistical learning theories of acquisition and empirically motivates new methods for training subword tokenizers.

arxiv情報

著者 Zébulon Goriely,Paula Buttery
発行日 2025-04-14 15:12:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク