要約
タイトル:多言語の単語リストから音韻的対応パターンを推測するための調音の整列のトリミングが改善する
要約:
– 音韻的対応パターンは、歴史的言語比較における語族検出や音韻学的再構成の基礎を形成する。
– 音声認識を行った認識単位集合から対応パターンを自動的に推測する方法が提案されているが、多言語の単語リストに適用するには非常に注釈が必要。
– 注釈は手間がかかるため、自動的に整列した認識単位データを改善する方法を見つけることが望ましい。
– 進化生物学のトリミング技術からインスピレーションを得て、対応パターンを推測する前に比較言語学の調音をトリミングするワークフローを提案する。
– テストを行った結果、最も優れたトリミング技術は整列の一貫性を大幅に改善することができた。
– 結果は、頻度が高い対応のパターンと正規の同系語関係を持つ単語の割合が明らかに増加したことを示している。
要約(オリジナル)
Sound correspondence patterns form the basis of cognate detection and phonological reconstruction in historical language comparison. Methods for the automatic inference of correspondence patterns from phonetically aligned cognate sets have been proposed, but their application to multilingual wordlists requires extremely well annotated datasets. Since annotation is tedious and time consuming, it would be desirable to find ways to improve aligned cognate data automatically. Taking inspiration from trimming techniques in evolutionary biology, which improve alignments by excluding problematic sites, we propose a workflow that trims phonetic alignments in comparative linguistics prior to the inference of correspondence patterns. Testing these techniques on a large standardized collection of ten datasets with expert annotations from different language families, we find that the best trimming technique substantially improves the overall consistency of the alignments. The results show a clear increase in the proportion of frequent correspondence patterns and words exhibiting regular cognate relations.
arxiv情報
著者 | Frederic Blum,Johann-Mattis List |
発行日 | 2023-03-31 09:55:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI