Phylo2Vec: a vector representation for binary trees

要約

生物学的データから推測される二値系統樹は、進化単位間の共有の歴史を理解する上で中心となります。
ただし、ツリー内の潜在ノードの配置を推論するのは NP が難しく、したがって計算コストが高くなります。
最先端の手法は、慎重に設計されたツリー検索のヒューリスティックに依存しています。
これらのメソッドは、操作を容易にするため (オブジェクト指向プログラミング言語のクラスなど)、ツリーの可読な表現 (Newick 形式の文字列など) を実現するために、さまざまなデータ構造を使用します。
ここでは、系統樹の操作と表現の両方に対する統一的なアプローチとして機能する、系統樹の節約的なエンコーディングである Phylo2Vec を紹介します。
Phylo2Vec は、$n$ の葉を持つバイナリ ツリーを長さ $n-1$ の一意の整数ベクトルにマップします。
Phylo2Vec の利点は次の 4 つです。i) 高速なツリー サンプリング、(ii) Newick 文字列と比較した圧縮されたツリー表現、iii) 2 つのバイナリ ツリーがトポロジー的に同一であるかどうかの迅速かつ明確な検証、iv) ツリー空間を非常に詳細に横断する体系的な機能
大小のジャンプ。
概念実証として、5 つの現実世界のデータセットに対する最尤推論に Phylo2Vec を使用し、単純な山登りベースの最適化スキームが、ランダムなツリーから最適なツリーまで広大なツリー空間を効率的に横断できることを示します。

要約(オリジナル)

Binary phylogenetic trees inferred from biological data are central to understanding the shared history among evolutionary units. However, inferring the placement of latent nodes in a tree is NP-hard and thus computationally expensive. State-of-the-art methods rely on carefully designed heuristics for tree search. These methods use different data structures for easy manipulation (e.g., classes in object-oriented programming languages) and readable representation of trees (e.g., Newick-format strings). Here, we present Phylo2Vec, a parsimonious encoding for phylogenetic trees that serves as a unified approach for both manipulating and representing phylogenetic trees. Phylo2Vec maps any binary tree with $n$ leaves to a unique integer vector of length $n-1$. The advantages of Phylo2Vec are fourfold: i) fast tree sampling, (ii) compressed tree representation compared to a Newick string, iii) quick and unambiguous verification if two binary trees are identical topologically, and iv) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill-climbing-based optimisation scheme can efficiently traverse the vastness of tree space from a random to an optimal tree.

arxiv情報

著者 Matthew J Penn,Neil Scheidwasser,Mark P Khurana,David A Duchêne,Christl A Donnelly,Samir Bhatt
発行日 2024-05-10 14:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.PE, q-bio.QM パーマリンク