Computational Approaches for Integrating out Subjectivity in Cognate Synonym Selection

要約

同族データの操作には、同義語、つまり言語で同じ概念を説明する複数の単語の処理が含まれます。
言語系統学の初期には、同義語を 1 つだけ選択することが推奨されていました。
ただし、ここで示すように、計算手法の入力として使用されるバイナリ文字行列を使用すると、すべての同義語を含むデータセット全体を表現できます。
ここでは、すべての同義語をどのようにして含めるのか、含める必要があるのか​​、それとも事前に同義語を選択することが望ましいのかという問題に取り組みます。
この目的のために、広く使用されている RAxML-NG ツールを使用して最尤ツリー推論を実行し、すべての同義語が入力として使用された場合に妥当なツリーが生成されることを示します。
さらに、先験的な同義語の選択により、トポロジー的に実質的に異なるツリーが生成される可能性があるため、そうしないことをお勧めします。
すべての同義語を含む同族データを表現するために、標準のバイナリ文字行列以外に、確率的バイナリ文字行列と確率的多値文字行列という 2 種類の文字行列を導入します。
さらに、推論された RAxML-NG ツリーがトポロジー的にゴールド スタンダードに最も近い文字行列タイプはデータセットに依存することを示します。
また、CLDF 形式で提供される同族データに対して上記の文字行列タイプをすべて生成するための Python インターフェイスも提供します。

要約(オリジナル)

Working with cognate data involves handling synonyms, that is, multiple words that describe the same concept in a language. In the early days of language phylogenetics it was recommended to select one synonym only. However, as we show here, binary character matrices, which are used as input for computational methods, do allow for representing the entire dataset including all synonyms. Here we address the question how one can and if one should include all synonyms or whether it is preferable to select synonyms a priori. To this end, we perform maximum likelihood tree inferences with the widely used RAxML-NG tool and show that it yields plausible trees when all synonyms are used as input. Furthermore, we show that a priori synonym selection can yield topologically substantially different trees and we therefore advise against doing so. To represent cognate data including all synonyms, we introduce two types of character matrices beyond the standard binary ones: probabilistic binary and probabilistic multi-valued character matrices. We further show that it is dataset-dependent for which character matrix type the inferred RAxML-NG tree is topologically closest to the gold standard. We also make available a Python interface for generating all of the above character matrix types for cognate data provided in CLDF format.

arxiv情報

著者 Luise Häuser,Gerhard Jäger,Alexandros Stamatakis
発行日 2024-04-30 07:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.PE パーマリンク