Hierarchical Data-efficient Representation Learning for Tertiary Structure-based RNA Design

要約

人工知能は、生体高分子の一次配列と三次構造の間の関係を明らかにする点で目覚ましい進歩を遂げていますが、特定の三次構造に基づいて RNA 配列を設計することは依然として困難です。
タンパク質設計における既存のアプローチは、タンパク質の構造と配列の依存性を徹底的に調査してきましたが、RNA 設計は依然として構造の複雑さとデータ不足による困難に直面しています。
さらに問題に加えて、タンパク質設計手法を RNA 設計に直接移植しても、類似した構造コンポーネントを共有しているにもかかわらず、満足のいく結果が得られません。
この研究では、データ駆動型の RNA 設計パイプラインを体系的に構築することを目的としています。
私たちは、大規模で厳選されたベンチマーク データセットを作成し、複雑な RNA の三次構造を表現するための包括的な構造モデリング アプローチを設計しました。
さらに重要なことは、限られたデータを最大限に活用するために、クラスターレベルとサンプルレベルの両方で対照学習を通じて構造表現を学習する、階層型データ効率の高い表現学習フレームワークを提案したことです。
限られた超球空間内でデータ表現を制約することにより、データ ポイント間の固有の関係を明示的に課すことができます。
さらに、抽出した塩基対の二次構造を事前知識として組み込み、RNA設計プロセスを容易にしました。
広範な実験により、私たちが提案した方法の有効性が実証され、将来の RNA 設計タスクに信頼できるベースラインが提供されます。
ソースコードとベンチマークデータセットは一般に公開されます。

要約(オリジナル)

While artificial intelligence has made remarkable strides in revealing the relationship between biological macromolecules’ primary sequence and tertiary structure, designing RNA sequences based on specified tertiary structures remains challenging. Though existing approaches in protein design have thoroughly explored structure-to-sequence dependencies in proteins, RNA design still confronts difficulties due to structural complexity and data scarcity. Adding to the problem, direct transplantation of protein design methodologies into RNA design fails to achieve satisfactory outcomes although sharing similar structural components. In this study, we aim to systematically construct a data-driven RNA design pipeline. We crafted a large, well-curated benchmark dataset and designed a comprehensive structural modeling approach to represent the complex RNA tertiary structure. More importantly, we proposed a hierarchical data-efficient representation learning framework that learns structural representations through contrastive learning at both cluster-level and sample-level to fully leverage the limited data. By constraining data representations within a limited hyperspherical space, the intrinsic relationships between data points could be explicitly imposed. Moreover, we incorporated extracted secondary structures with base pairs as prior knowledge to facilitate the RNA design process. Extensive experiments demonstrate the effectiveness of our proposed method, providing a reliable baseline for future RNA design tasks. The source code and benchmark dataset will be released publicly.

arxiv情報

著者 Cheng Tan,Yijie Zhang,Zhangyang Gao,Hanqun Cao,Stan Z. Li
発行日 2023-05-17 13:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク