More than Just Statistical Recurrence: Human and Machine Unsupervised Learning of Māori Word Segmentation across Morphological Processes

要約

M\=aori を話さないニュージーランド人 (NMS) は、流暢な話者と非常によく似た方法で M\=aori の単語をセグメント化することができます (Panther et al.,2024)。
この能力は、統計的に再発する形式の識別と抽出を通じて得られると考えられています。
私たちは、NMS セグメンテーションが、さまざまな形態学的プロセスによって形成された単語全体にわたって、統計的再発に基づいて動作する教師なし機械学習モデルである Morfessor によって生成されたセグメンテーションとどのように比較されるかを尋ねることによって、この仮定を検証します。
NMS と Morfessor は両方とも、連結プロセス (異形性を伴わない複合化と付加) によって形成された単語のセグメント化に成功していますが、NMS はテンプレート (重複と異形性) やその他の形態学的構造への手がかりを呼び出す単語にも成功しており、学習プロセスがより多くの要素に敏感であることを示唆しています。
単なる統計的再発ではありません。

要約(オリジナル)

Non-M\=aori-speaking New Zealanders (NMS)are able to segment M\=aori words in a highlysimilar way to fluent speakers (Panther et al.,2024). This ability is assumed to derive through the identification and extraction of statistically recurrent forms. We examine this assumption by asking how NMS segmentations compare to those produced by Morfessor, an unsupervised machine learning model that operates based on statistical recurrence, across words formed by a variety of morphological processes. Both NMS and Morfessor succeed in segmenting words formed by concatenative processes (compounding and affixation without allomorphy), but NMS also succeed for words that invoke templates (reduplication and allomorphy) and other cues to morphological structure, implying that their learning process is sensitive to more than just statistical recurrence.

arxiv情報

著者 Ashvini Varatharaj,Simon Todd
発行日 2024-03-21 14:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク