要約
ディストリビューション間の最適な輸送距離を効率的に計算することは、データサイエンスにおいてますます重要になっています。
シンクホーンベースの手法は現在、このような計算の最先端技術ですが、$O(n^2)$ の計算が必要です。
さらに、シンクホーンベースの手法では、一般にデータポイント間のユークリッド地上距離が使用されます。
ただし、多様体構造の科学データが普及しているため、測地線の地上距離を考慮することが望ましいことがよくあります。
ここでは、多様体グラフ上の熱カーネルの拡散に基づいた測地線シンクホーンを提案することで、両方の問題に取り組みます。
特に、測地線シンホーンでは、スパース グラフ ラプラシアンに基づくチェビシェフ多項式で熱カーネルを近似するため、$O(n\log n)$ の計算のみが必要です。
我々の方法を、化学療法を受けている患者サンプルからの高次元単一細胞データのいくつかの分布の重心の計算に適用します。
特に、重心距離をそのような 2 つの重心間の距離として定義します。
この定義を使用して、細胞データに対する治療の効果に関連する最適な輸送距離と経路を特定します。
要約(オリジナル)
Efficient computation of optimal transport distance between distributions is of growing importance in data science. Sinkhorn-based methods are currently the state-of-the-art for such computations, but require $O(n^2)$ computations. In addition, Sinkhorn-based methods commonly use an Euclidean ground distance between datapoints. However, with the prevalence of manifold structured scientific data, it is often desirable to consider geodesic ground distance. Here, we tackle both issues by proposing Geodesic Sinkhorn — based on diffusing a heat kernel on a manifold graph. Notably, Geodesic Sinkhorn requires only $O(n\log n)$ computation, as we approximate the heat kernel with Chebyshev polynomials based on the sparse graph Laplacian. We apply our method to the computation of barycenters of several distributions of high dimensional single cell data from patient samples undergoing chemotherapy. In particular, we define the barycentric distance as the distance between two such barycenters. Using this definition, we identify an optimal transport distance and path associated with the effect of treatment on cellular data.
arxiv情報
著者 | Guillaume Huguet,Alexander Tong,María Ramos Zapatero,Christopher J. Tape,Guy Wolf,Smita Krishnaswamy |
発行日 | 2023-09-26 13:12:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google