Optimal transport for automatic alignment of untargeted metabolomic data

要約

液体クロマトグラフィー質量分析 (LC-MS) による非標的メタボローム プロファイリングは、生体試料内の膨大な数の代謝産物を測定し、医薬品開発、疾患診断、リスク予測を前進させます。
ただし、LC-MS のスループットが低いため、バイオマーカーの発見、アノテーション、実験の比較には大きな課題があり、複数のデータセットを統合する必要があります。
現在のデータ プーリング方法は、データの変動やハイパーパラメーターの依存性に対する脆弱性により、実際的な制限に直面しています。
ここでは、最適なトランスポートを使用して LC-MS データセットを自動的に結合する、柔軟で使いやすいアルゴリズムである GromovMatcher を紹介します。
GromovMatcher は、特徴強度相関構造を利用することで、既存のアプローチと比較して優れた位置合わせ精度と堅牢性を実現します。
このアルゴリズムは、最小限のハイパーパラメータ調整を必要とする数千の機能に対応します。
私たちの方法を肝臓がんおよび膵臓がんの実験的な患者研究に適用すると、患者のアルコール摂取に関連する共通の代謝特徴が発見され、GromovMatcher がどのようにしていくつかのがんの種類に関連するライフスタイルの危険因子に関連するバイオマーカーの検索を容易にするかを実証しました。

要約(オリジナル)

Untargeted metabolomic profiling through liquid chromatography-mass spectrometry (LC-MS) measures a vast array of metabolites within biospecimens, advancing drug development, disease diagnosis, and risk prediction. However, the low throughput of LC-MS poses a major challenge for biomarker discovery, annotation, and experimental comparison, necessitating the merging of multiple datasets. Current data pooling methods encounter practical limitations due to their vulnerability to data variations and hyperparameter dependence. Here we introduce GromovMatcher, a flexible and user-friendly algorithm that automatically combines LC-MS datasets using optimal transport. By capitalizing on feature intensity correlation structures, GromovMatcher delivers superior alignment accuracy and robustness compared to existing approaches. This algorithm scales to thousands of features requiring minimal hyperparameter tuning. Applying our method to experimental patient studies of liver and pancreatic cancer, we discover shared metabolic features related to patient alcohol intake, demonstrating how GromovMatcher facilitates the search for biomarkers associated with lifestyle risk factors linked to several cancer types.

arxiv情報

著者 Marie Breeur,George Stepaniants,Pekka Keski-Rahkonen,Philippe Rigollet,Vivian Viallon
発行日 2024-02-14 17:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 49Q22, 92C40, cs.LG, G.3, q-bio.QM パーマリンク