Phylo2Vec: a vector representation for binary trees




– 生物データから推定されたバイナリ系統樹は、有機体の共通の進化の歴史を理解する上で中心的です。
– NP困難な問題であるため、最適性基準(最大尤度など)によるツリー内の潜在ノードの配置を推定することは、多数のヒューリスティックアプローチを促進しています。
– しかし、これらのヒューリスティックは、一様にランダムツリーをサンプリングするための体系的な手段や、階乗的に成長するツリースペースを効果的に探索する手段を欠いていることがしばしばあり、これらは機械学習などの最適化問題にとって重要です。
– それに応じて、私たちはPhylo2Vecを提供し、系統樹の新しい簡潔な表現です。Phylo2Vecは、n枚の葉がある任意のバイナリツリーを、長さnの整数ベクトルにマップすることができます。
– Phylo2Vecが系統樹の空間に対してウェルデファインドで双方向であることを証明します。
– Phylo2Vecの利点は次の2つです:i)バイナリツリーの一様なサンプリングが容易であること、ii)非常に大きなまたは小さなジャンプでツリースペースを体系的に探索する能力。
– コンセプトの証明として、5つの実世界のデータセットに対する最大尤度推定にPhylo2Vecを使用し、ランダムから最適ツリーまでツリースペースの広大さを効率的に探索する単純な山登りベースの最適化を示します。


Binary phylogenetic trees inferred from biological data are central to understanding the shared evolutionary history of organisms. Inferring the placement of latent nodes in a tree by any optimality criterion (e.g., maximum likelihood) is an NP-hard problem, propelling the development of myriad heuristic approaches. Yet, these heuristics often lack a systematic means of uniformly sampling random trees or effectively exploring a tree space that grows factorially, which are crucial to optimisation problems such as machine learning. Accordingly, we present Phylo2Vec, a new parsimonious representation of a phylogenetic tree. Phylo2Vec maps any binary tree with $n$ leaves to an integer vector of length $n$. We prove that Phylo2Vec is both well-defined and bijective to the space of phylogenetic trees. The advantages of Phylo2Vec are twofold: i) easy uniform sampling of binary trees and ii) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill climbing-based optimisation efficiently traverses the vastness of tree space from a random to an optimal tree.


著者 Matthew J Penn,Neil Scheidwasser,Mark P Khurana,David A Duchêne,Christl A Donnelly,Samir Bhatt
発行日 2023-04-25 09:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, q-bio.PE, q-bio.QM パーマリンク