PERC: a suite of software tools for the curation of cryoEM data with application to simulation, modelling and machine learning

要約

データ、ツール、モデルへのアクセスの容易さは、科学的研究を促進します。
構造生物学には、実験的およびシミュレートされたデータセットの多数のオープンリポジトリが現在あります。
これらに簡単にアクセスして利用できることは、研究者が研究努力を最適に使用できるようにするために重要です。
ここに示されているツールは、既存のパブリックCryOEMデータセットを照合したり、新しい合成CRYOEMデータセットを作成して、新しいデータ処理と解釈アルゴリズムの開発を支援するのに役立ちます。
近年、構造生物学は、実験データセットの処理と再構築の多数のステップとこれらのアプローチの使用を支援するための多数の機械学習ベースのアルゴリズムの開発を見てきました。
構造生物学のこのような技術を開発するには、キュレートするのが面倒で扱いにくい大規模なデータセットへのアクセスが必要です。
このホワイトペーパーでは、Pythonソフトウェアパッケージのスイートを紹介します。これは、Perc(Profet、Empiarreader、Caked)とまとめて呼ばれます。
これらは、データキュレーションが構造生物学の研究にかかる負担を減らすように設計されています。
Protein Structure Fetcher(Profet)パッケージを使用すると、ユーザーはProtein Data BankまたはAlphaFoldデータベースからシーケンスまたは構造を便利にダウンロードおよびクリーブできます。
EmpiarReaderは、機械学習互換構造で電子顕微鏡パブリックイメージアーカイブデータセットの怠zyなロードを許可します。
主要な電子顕微鏡データ(CAKED)パッケージのクラスアグリゲーターは、電子クリオミクロスコサイト固有のデータの増強と標識を含む電子顕微鏡データに関する機械学習モデルのトレーニングをシームレスに促進するように設計されています。
これらのパッケージは、独立して、またはワークフローのビルディングブロックとして利用できます。
すべてはオープンソースリポジトリで利用でき、必要に応じてより高度なワークフローを容易にするために簡単に拡張できるように設計されています。

要約(オリジナル)

Ease of access to data, tools and models expedites scientific research. In structural biology there are now numerous open repositories of experimental and simulated datasets. Being able to easily access and utilise these is crucial for allowing researchers to make optimal use of their research effort. The tools presented here are useful for collating existing public cryoEM datasets and/or creating new synthetic cryoEM datasets to aid the development of novel data processing and interpretation algorithms. In recent years, structural biology has seen the development of a multitude of machine-learning based algorithms for aiding numerous steps in the processing and reconstruction of experimental datasets and the use of these approaches has become widespread. Developing such techniques in structural biology requires access to large datasets which can be cumbersome to curate and unwieldy to make use of. In this paper we present a suite of Python software packages which we collectively refer to as PERC (profet, EMPIARreader and CAKED). These are designed to reduce the burden which data curation places upon structural biology research. The protein structure fetcher (profet) package allows users to conveniently download and cleave sequences or structures from the Protein Data Bank or Alphafold databases. EMPIARreader allows lazy loading of Electron Microscopy Public Image Archive datasets in a machine-learning compatible structure. The Class Aggregator for Key Electron-microscopy Data (CAKED) package is designed to seamlessly facilitate the training of machine learning models on electron microscopy data, including electron-cryo-microscopy-specific data augmentation and labelling. These packages may be utilised independently or as building blocks in workflows. All are available in open source repositories and designed to be easily extensible to facilitate more advanced workflows if required.

arxiv情報

著者 Beatriz Costa-Gomes,Joel Greer,Nikolai Juraschko,James Parkhurst,Jola Mirecka,Marjan Famili,Camila Rangel-Smith,Oliver Strickson,Alan Lowe,Mark Basham,Tom Burnley
発行日 2025-03-17 16:07:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG, q-bio.BM パーマリンク