Phylo2Vec: a vector representation for binary trees

要約

生物学的データから推測されるバイナリ系統樹は、進化ユニット間の共有歴史を理解するための中心です。
ただし、ツリーに潜在的なノードの配置を推測することは、計算的に高価です。
最先端の方法は、さまざまなデータ構造を使用して、簡単な操作(オブジェクト指向のプログラミング言語のクラスなど)とツリーの読み取り可能な表現(例:Newick-Format Strings)を使用して、慎重に設計されたヒューリスティックに依存してツリー検索に依存しています。
ここでは、系統樹を操作して表現するための統一されたアプローチとして機能する系統樹の標準的なエンコードであるPhylo2Vecを提示します。
Phylo2vecは、$ n $の葉を持つバイナリツリーをマップし、長さ$ n-1 $の一意の整数ベクトルにマップします。
Phylo2Vecの利点は4倍です。i)高速ツリーサンプリング、(ii)newick stringと比較した圧縮ツリー表現、iii)2つのバイナリツリーが同一であるかどうか、iv)非常に大きなジャンプまたは小さなジャンプでツリー空間を通過する系統的な能力。
概念の証明として、5つの実際のデータセットで最尤推論にPhylo2Vecを使用し、単純なヒルクリミングベースの最適化スキームがランダムから最適なツリーまでツリー空間の膨大さを効率的に横断できることを示します。

要約(オリジナル)

Binary phylogenetic trees inferred from biological data are central to understanding the shared history among evolutionary units. However, inferring the placement of latent nodes in a tree is computationally expensive. State-of-the-art methods rely on carefully designed heuristics for tree search, using different data structures for easy manipulation (e.g., classes in object-oriented programming languages) and readable representation of trees (e.g., Newick-format strings). Here, we present Phylo2Vec, a parsimonious encoding for phylogenetic trees that serves as a unified approach for both manipulating and representing phylogenetic trees. Phylo2Vec maps any binary tree with $n$ leaves to a unique integer vector of length $n-1$. The advantages of Phylo2Vec are fourfold: i) fast tree sampling, (ii) compressed tree representation compared to a Newick string, iii) quick and unambiguous verification if two binary trees are identical topologically, and iv) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill-climbing-based optimisation scheme can efficiently traverse the vastness of tree space from a random to an optimal tree.

arxiv情報

著者 Matthew J Penn,Neil Scheidwasser,Mark P Khurana,David A Duchêne,Christl A Donnelly,Samir Bhatt
発行日 2025-03-25 16:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.PE, q-bio.QM パーマリンク