要約
タンパク質の逆フォールディングは、特定のタンパク質骨格構造からアミノ酸配列を回復することを目的とした、バイオインフォマティクスにおける基本的な問題です。
既存の方法は成功しているにもかかわらず、正確な配列予測に重要な複雑な残基間の関係を完全に捕捉するのに苦労しています。
我々は、表現アラインメントを備えた拡散モデル(DMRA)を活用する新しい方法を提案します。これは、(1)タンパク質構造全体からコンテキスト情報を集約し、それを各残基に選択的に分配する共有中心を提案することにより、拡散ベースの逆フォールディングを強化します。
(2) ノイズ除去プロセス中に、ノイズの多い隠れた表現をクリーンなセマンティック表現と調整します。
これは、アミノ酸タイプの事前定義された意味表現と、各残基を正規化するための意味フィードバックとしてタイプの埋め込みを利用する表現アラインメント方法によって実現されます。
実験では、CATH4.2 データセットに対して広範な評価を実施し、DMRA が主要な手法を上回り、最先端のパフォーマンスを達成し、TS50 および TS500 データセットで強力な一般化機能を発揮することを実証しました。
要約(オリジナル)
Protein inverse folding is a fundamental problem in bioinformatics, aiming to recover the amino acid sequences from a given protein backbone structure. Despite the success of existing methods, they struggle to fully capture the intricate inter-residue relationships critical for accurate sequence prediction. We propose a novel method that leverages diffusion models with representation alignment (DMRA), which enhances diffusion-based inverse folding by (1) proposing a shared center that aggregates contextual information from the entire protein structure and selectively distributes it to each residue; and (2) aligning noisy hidden representations with clean semantic representations during the denoising process. This is achieved by predefined semantic representations for amino acid types and a representation alignment method that utilizes type embeddings as semantic feedback to normalize each residue. In experiments, we conduct extensive evaluations on the CATH4.2 dataset to demonstrate that DMRA outperforms leading methods, achieving state-of-the-art performance and exhibiting strong generalization capabilities on the TS50 and TS500 datasets.
arxiv情報
著者 | Chenglin Wang,Yucheng Zhou,Zijie Zhai,Jianbing Shen,Kai Zhang |
発行日 | 2024-12-12 15:47:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google