要約
スパニング ツリーは、データ セットをその「骨格」の観点から要約する必要がある場合、または下流の処理ですべての観測値にわたるツリー状のグラフが必要な場合、多くのデータ分析タスクにおいて重要なプリミティブです。
スパニング ツリーの一般的な定義には、最小スパニング ツリーと最適距離スパニング ツリー (最小ルーティング コスト ツリーとも呼ばれます) が含まれます。
最短のスパニング ツリーを検索し、追加の分岐点を許容する場合、さらに短いスパニング ツリー、つまりシュタイナー ツリーを実現できます。
残念ながら、最小スパニング ツリーとスタイナー ツリーはどちらも観測のノイズに対して堅牢ではありません。
つまり、元のデータ セットの小さな変動が、関連するスパニング ツリーに大きな変化をもたらすことがよくあります。
これに応えて、データがユークリッド空間にある場合、我々は 2 つの貢献をします。理論的な側面では、前述のすべての定義を特殊なケースとして包含する、新しい最適化問題である「(分岐) 中央スパニング ツリー」を導入します。
実際の面では、(分岐した) 中央スパニング ツリーはデータ内のノイズに対してより堅牢であるため、スケルトンの観点からデータ セットを要約するのに適していることを経験的に示しています。
また、NP ハード最適化問題に対処するためのヒューリスティックを提案し、生物学および植物の 3D 点群からの単一細胞 RNA 発現データに対するその使用法を説明します。
要約(オリジナル)
Spanning trees are an important primitive in many data analysis tasks, when a data set needs to be summarized in terms of its ‘skeleton’, or when a tree-shaped graph over all observations is required for downstream processing. Popular definitions of spanning trees include the minimum spanning tree and the optimum distance spanning tree, a.k.a. the minimum routing cost tree. When searching for the shortest spanning tree but admitting additional branching points, even shorter spanning trees can be realized: Steiner trees. Unfortunately, both minimum spanning and Steiner trees are not robust with respect to noise in the observations; that is, small perturbations of the original data set often lead to drastic changes in the associated spanning trees. In response, we make two contributions when the data lies in a Euclidean space: on the theoretical side, we introduce a new optimization problem, the ‘(branched) central spanning tree’, which subsumes all previously mentioned definitions as special cases. On the practical side, we show empirically that the (branched) central spanning tree is more robust to noise in the data, and as such is better suited to summarize a data set in terms of its skeleton. We also propose a heuristic to address the NP-hard optimization problem, and illustrate its use on single cell RNA expression data from biology and 3D point clouds of plants.
arxiv情報
著者 | Enrique Fita Sanmartín,Christoph Schnörr,Fred A. Hamprecht |
発行日 | 2024-04-09 16:49:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google