Computational Approaches for Integrating out Subjectivity in Cognate Synonym Selection


言語系統学の初期には、同義語を 1 つだけ選択することが推奨されていました。
この目的のために、広く使用されている RAxML-NG ツールを使用して最尤ツリー推論を実行し、すべての同義語が入力として使用された場合に妥当なツリーが生成されることを示します。
すべての同義語を含む同族データを表現するために、標準のバイナリ文字行列以外に、確率的バイナリ文字行列と確率的多値文字行列という 2 種類の文字行列を導入します。
さらに、推論された RAxML-NG ツリーがトポロジー的にゴールド スタンダードに最も近い文字行列タイプはデータセットに依存することを示します。
また、CLDF 形式で提供される同族データに対して上記の文字行列タイプをすべて生成するための Python インターフェイスも提供します。


Working with cognate data involves handling synonyms, that is, multiple words that describe the same concept in a language. In the early days of language phylogenetics it was recommended to select one synonym only. However, as we show here, binary character matrices, which are used as input for computational methods, do allow for representing the entire dataset including all synonyms. Here we address the question how one can and if one should include all synonyms or whether it is preferable to select synonyms a priori. To this end, we perform maximum likelihood tree inferences with the widely used RAxML-NG tool and show that it yields plausible trees when all synonyms are used as input. Furthermore, we show that a priori synonym selection can yield topologically substantially different trees and we therefore advise against doing so. To represent cognate data including all synonyms, we introduce two types of character matrices beyond the standard binary ones: probabilistic binary and probabilistic multi-valued character matrices. We further show that it is dataset-dependent for which character matrix type the inferred RAxML-NG tree is topologically closest to the gold standard. We also make available a Python interface for generating all of the above character matrix types for cognate data provided in CLDF format.


著者 Luise Häuser,Gerhard Jäger,Alexandros Stamatakis
発行日 2024-04-30 07:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, q-bio.PE パーマリンク