Domain adaptation in small-scale and heterogeneous biological datasets

要約

機械学習技術は現代生物学において着実に重要性を増しており、予測モデルの構築、パターンの発見、生物学的問題の調査に使用されています。
ただし、1 つのデータセットでトレーニングされたモデルは、これらのデータセットの統計的特性の違いにより、異なるコホートや研究室の他のデータセットには一般化できないことがよくあります。
これらは、使用される測定技術などの技術的な違い、または研究された集団間の関連する生物学的な違いに起因する可能性があります。
転移学習の一種であるドメイン適応は、異なるデータセット間で特徴とサンプルの統計的分布を調整し、類似のモデルをデータセット全体に適用できるようにすることで、この問題を軽減できます。
しかし、最先端のドメイン適応手法の大部分は、大部分がテキストと画像である大規模なデータを扱うように設計されているのに対し、生物学的データセットはサンプル サイズが小さいことが多く、特徴空間の不均一性などの複雑さを抱えています。

このレビューは、小規模で非常に異質な生物学的データの文脈におけるドメイン適応方法を総合的に議論することを目的としています。
生物学研究におけるドメイン適応の利点と課題について説明し、主要な代表的な方法論を通じてその目的、長所、短所の一部を批判的に議論します。
私たちは、カスタマイズされたアプローチをさらに開発して、ドメイン適応技術を計算生物学者のツールキットに組み込むことを主張します。

要約(オリジナル)

Machine learning techniques are steadily becoming more important in modern biology, and are used to build predictive models, discover patterns, and investigate biological problems. However, models trained on one dataset are often not generalizable to other datasets from different cohorts or laboratories, due to differences in the statistical properties of these datasets. These could stem from technical differences, such as the measurement technique used, or from relevant biological differences between the populations studied. Domain adaptation, a type of transfer learning, can alleviate this problem by aligning the statistical distributions of features and samples among different datasets so that similar models can be applied across them. However, a majority of state-of-the-art domain adaptation methods are designed to work with large-scale data, mostly text and images, while biological datasets often suffer from small sample sizes, and possess complexities such as heterogeneity of the feature space. This Review aims to synthetically discuss domain adaptation methods in the context of small-scale and highly heterogeneous biological data. We describe the benefits and challenges of domain adaptation in biological research and critically discuss some of its objectives, strengths, and weaknesses through key representative methodologies. We argue for the incorporation of domain adaptation techniques to the computational biologist’s toolkit, with further development of customized approaches.

arxiv情報

著者 Seyedmehdi Orouji,Martin C. Liu,Tal Korem,Megan A. K. Peters
発行日 2024-05-29 16:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク