Leveraging a Simulator for Learning Causal Representations from Post-Treatment Covariates for CATE

要約

治療効果の推定には、個々の結果に対するさまざまな治療の影響を評価することが含まれます。
現在の方法では、陽性や非強制性などの仮定の下で、治療の割り当てと結果がその後観察される前に共変量が収集される観測データセットを使用して、条件平均治療効果(CATE)を推定します。
この論文では、治療後に共変量と結果の両方が収集されるシナリオに対処します。
治療後の共変量がCATEを識別不能にすることを示し、CATEを回復するには、治療に依存しない因果表現を学習する必要があることを示します。
以前の研究は、反事実的な監督が観察データで利用可能である場合、対照的な学習を通じてそのような表現を学ぶことができることを示しています。
ただし、反事実はまれであるため、他の作品は合成反事実的監督を提供するシミュレーターを使用して調査しています。
この論文の目標は、CATEの推定におけるシミュレーターの役割を体系的に分析することです。
いくつかのベースラインのCATEエラーを分析し、それらの制限を強調します。
次に、実際のシミュレーターのミスマッチの関数として、実際の分布とシミュレートされた分布に関する共同トレーニングからのCATEエラーを特徴付ける一般化バウンドを確立します。
最後に、simponetを紹介します。これは、一般化バウンドから損失関数がインスピレーションを受けた新しい方法です。
さらに、シミュレータがCATEタスクとの関連性に基づいて、Simponetが学習目標に対するシミュレーターの影響をどのように調整するかを示します。
最先端のCATEベースラインに対するシンポネットの有効性を評価するために、実際のシミュレータ分布ギャップを体系的に変化させることにより、さまざまなDGPを実験します。

要約(オリジナル)

Treatment effect estimation involves assessing the impact of different treatments on individual outcomes. Current methods estimate Conditional Average Treatment Effect (CATE) using observational datasets where covariates are collected before treatment assignment and outcomes are observed afterward, under assumptions like positivity and unconfoundedness. In this paper, we address a scenario where both covariates and outcomes are gathered after treatment. We show that post-treatment covariates render CATE unidentifiable, and recovering CATE requires learning treatment-independent causal representations. Prior work shows that such representations can be learned through contrastive learning if counterfactual supervision is available in observational data. However, since counterfactuals are rare, other works have explored using simulators that offer synthetic counterfactual supervision. Our goal in this paper is to systematically analyze the role of simulators in estimating CATE. We analyze the CATE error of several baselines and highlight their limitations. We then establish a generalization bound that characterizes the CATE error from jointly training on real and simulated distributions, as a function of the real-simulator mismatch. Finally, we introduce SimPONet, a novel method whose loss function is inspired from our generalization bound. We further show how SimPONet adjusts the simulator’s influence on the learning objective based on the simulator’s relevance to the CATE task. We experiment with various DGPs, by systematically varying the real-simulator distribution gap to evaluate SimPONet’s efficacy against state-of-the-art CATE baselines.

arxiv情報

著者 Lokesh Nagalapatti,Pranava Singhal,Avishek Ghosh,Sunita Sarawagi
発行日 2025-02-07 16:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Leveraging a Simulator for Learning Causal Representations from Post-Treatment Covariates for CATE はコメントを受け付けていません

Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data

要約

敵対的な訓練は、敵対的な摂動に対して堅牢であるために、深いニューラルネットワークを訓練するための広く適用されたアプローチです。
しかし、敵対的な訓練は実際に経験的な成功を達成していますが、なぜ敵対的な例が存在するのか、どのように敵対的なトレーニング方法がモデルの堅牢性を改善するかはまだ不明のままです。
この論文では、機能学習理論の観点から敵対的な例と敵対的な訓練アルゴリズムの理論的理解を提供します。
具体的には、構造化されたデータは、摂動に耐性があるがまばらである堅牢な機能と、摂動に敏感で密集している非げっ歯類の特徴の2つのタイプの機能で構成できる複数の分類設定に焦点を当てています。
2層の滑らかなリレリューコンボリューションニューラルネットワークを訓練して、構造化されたデータを学習します。
まず、標準のトレーニング(経験的リスクよりも勾配降下)を使用することにより、ネットワーク学習者は主に堅牢な特徴ではなく非堅牢な機能を学習することを証明します。
– 頑丈な機能の方向。
次に、グラデーションベースの敵対的トレーニングアルゴリズムを検討します。これは、勾配上昇を実行して敵対例を見つけ、敵の例で経験的リスクよりも勾配降下を実行してモデルを更新します。
敵対的なトレーニング方法は、堅牢な機能学習を実証し、ネットワークの堅牢性を向上させるための非積極的な機能学習を抑制できることを示しています。
最後に、MNIST、CIFAR10、SVHNを含む実数データセットでの実験で理論的発見を経験的に検証します。

要約(オリジナル)

Adversarial training is a widely-applied approach to training deep neural networks to be robust against adversarial perturbation. However, although adversarial training has achieved empirical success in practice, it still remains unclear why adversarial examples exist and how adversarial training methods improve model robustness. In this paper, we provide a theoretical understanding of adversarial examples and adversarial training algorithms from the perspective of feature learning theory. Specifically, we focus on a multiple classification setting, where the structured data can be composed of two types of features: the robust features, which are resistant to perturbation but sparse, and the non-robust features, which are susceptible to perturbation but dense. We train a two-layer smoothed ReLU convolutional neural network to learn our structured data. First, we prove that by using standard training (gradient descent over the empirical risk), the network learner primarily learns the non-robust feature rather than the robust feature, which thereby leads to the adversarial examples that are generated by perturbations aligned with negative non-robust feature directions. Then, we consider the gradient-based adversarial training algorithm, which runs gradient ascent to find adversarial examples and runs gradient descent over the empirical risk at adversarial examples to update models. We show that the adversarial training method can provably strengthen the robust feature learning and suppress the non-robust feature learning to improve the network robustness. Finally, we also empirically validate our theoretical findings with experiments on real-image datasets, including MNIST, CIFAR10 and SVHN.

arxiv情報

著者 Binghui Li,Yuanzhi Li
発行日 2025-02-07 16:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data はコメントを受け付けていません

Hybrid machine learning based scale bridging framework for permeability prediction of fibrous structures

要約

この研究では、繊維性繊維構造の透過性を予測するためのハイブリッド機械学習ベースのスケールブリッジフレームワークを紹介します。
マルチスケールモデリングに固有の計算上の課題に対処することにより、提案されたアプローチは、従来のサロゲートモデルを組み合わせたさまざまなスケールブリッジング方法論の効率と精度を評価し、物理学に基づいたニューラルネットワーク(PINN)と数値ソルバーを統合し、ミクロ全体の正確な透過性予測を可能にします。
とメソスケール。
4つの方法論が評価されました:単一スケール法(SSM)、単純なアップスケーリング法(SUM)、スケールブリッジング法(SBM)、および完全に解決されたモデル(FRM)。
最も単純な方法であるSSMは、マイクロスケールの透過性を無視し、FRMモデルの最大150 \%で偏差する透過性値を示しました。
均一なマイクロスケールの透過性を考慮して、同様の条件下でより近い値を生成することにより、合計の改善された予測を改善しましたが、それでも構造的なばらつきがありませんでした。
セグメントベースのマイクロスケール透磁率の割り当てを組み込んだSBMメソッドは、大幅な強化を示し、計算効率を維持し、シミュレーションあたり約45分のランタイムをモデリングしながらほぼ同等の値を達成しました。
対照的に、MicroscaleとMesoscaleの形状を完全に解決することにより最高の忠実度を提供するFRMは、SSMよりも最大270倍の計算時間が必要であり、モデルファイルは300 GBを超えています。
さらに、PINNを組み込んだハイブリッドデュアルスケールソルバーが開発されており、一般化エラーを克服する可能性と、データ駆動型のサロゲートアプローチのデータ不足の問題を示しています。
ハイブリッドフレームワークは、計算コストと予測の信頼性のバランスをとることにより透過性モデリングを進め、線維性複合材の製造におけるさらなる用途の基礎を築きます。

要約(オリジナル)

This study introduces a hybrid machine learning-based scale-bridging framework for predicting the permeability of fibrous textile structures. By addressing the computational challenges inherent to multiscale modeling, the proposed approach evaluates the efficiency and accuracy of different scale-bridging methodologies combining traditional surrogate models and even integrating physics-informed neural networks (PINNs) with numerical solvers, enabling accurate permeability predictions across micro- and mesoscales. Four methodologies were evaluated: Single Scale Method (SSM), Simple Upscaling Method (SUM), Scale-Bridging Method (SBM), and Fully Resolved Model (FRM). SSM, the simplest method, neglects microscale permeability and exhibited permeability values deviating by up to 150\% of the FRM model, which was taken as ground truth at an equivalent lower fiber volume content. SUM improved predictions by considering uniform microscale permeability, yielding closer values under similar conditions, but still lacked structural variability. The SBM method, incorporating segment-based microscale permeability assignments, showed significant enhancements, achieving almost equivalent values while maintaining computational efficiency and modeling runtimes of ~45 minutes per simulation. In contrast, FRM, which provides the highest fidelity by fully resolving microscale and mesoscale geometries, required up to 270 times more computational time than SSM, with model files exceeding 300 GB. Additionally, a hybrid dual-scale solver incorporating PINNs has been developed and shows the potential to overcome generalization errors and the problem of data scarcity of the data-driven surrogate approaches. The hybrid framework advances permeability modelling by balancing computational cost and prediction reliability, laying the foundation for further applications in fibrous composite manufacturing.

arxiv情報

著者 Denis Korolev,Tim Schmidt,Dinesh K. Natarajan,Stefano Cassola,David May,Miro Duhovic,Michael Hintermüller
発行日 2025-02-07 16:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Hybrid machine learning based scale bridging framework for permeability prediction of fibrous structures はコメントを受け付けていません

Do Unlearning Methods Remove Information from Language Model Weights?

要約

サイバーセキュリティ攻撃を実行し、生物兵器を作成し、人間を操作する方法に関する大規模な言語モデルの知識は、誤用のリスクをもたらします。
以前の研究では、この知識を学習する方法を提案しています。
歴史的に、学習技術がモデルの重みから情報を削除しているのか、それともアクセスを難しくしているのかは不明でした。
これらの2つの目的を解くために、モデルの重みから情報の削除をテストするための敵対的評価方法を提案します。
アクセス可能な事実から推測できないのと同じ分布。
アクセス可能な事実に微調整することで、事前脱出中に学習した情報の現在の未学習方法に適用された場合、ユダヤリング前の精度の88%を回復し、モデルの重みから情報を削除する際のこれらの方法の制限を明らかにすることができることを示します。
また、我々の結果は、追加の微調整段階で学んだ情報の堅牢性を測定する学習の不明な評価が、事前脱布中に学んだ情報を学んだ評価を試みる評価と比較して、堅牢性を過大評価する可能性があることを示唆しています。

要約(オリジナル)

Large Language Models’ knowledge of how to perform cyber-security attacks, create bioweapons, and manipulate humans poses risks of misuse. Previous work has proposed methods to unlearn this knowledge. Historically, it has been unclear whether unlearning techniques are removing information from the model weights or just making it harder to access. To disentangle these two objectives, we propose an adversarial evaluation method to test for the removal of information from model weights: we give an attacker access to some facts that were supposed to be removed, and using those, the attacker tries to recover other facts from the same distribution that cannot be guessed from the accessible facts. We show that using fine-tuning on the accessible facts can recover 88% of the pre-unlearning accuracy when applied to current unlearning methods for information learned during pretraining, revealing the limitations of these methods in removing information from the model weights. Our results also suggest that unlearning evaluations that measure unlearning robustness on information learned during an additional fine-tuning phase may overestimate robustness compared to evaluations that attempt to unlearn information learned during pretraining.

arxiv情報

著者 Aghyad Deeb,Fabien Roger
発行日 2025-02-07 16:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Do Unlearning Methods Remove Information from Language Model Weights? はコメントを受け付けていません

Noise Sensitivity of Hierarchical Functions and Deep Learning Lower Bounds in General Product Measures

要約

最近の作品は、階層構造を使用した機能またはデータを調べることにより、Deep Learningの成功を探ります。
補完的には、ディープネットの勾配降下性能に関する研究により、独立した同一に分布した(I.I.D.)ベルヌーイ入力の下での機能のノイズ感度が学習の複雑さの境界を確立することが示されています。
この論文は、非線形関数の繰り返し組成によって構築された機能が一般的な製品測定の下で騒音に敏感であることを実証することにより、これらの研究ストリームを橋渡しすることを目的としています。

要約(オリジナル)

Recent works explore deep learning’s success by examining functions or data with hierarchical structure. Complementarily, research on gradient descent performance for deep nets has shown that noise sensitivity of functions under independent and identically distributed (i.i.d.) Bernoulli inputs establishes learning complexity bounds. This paper aims to bridge these research streams by demonstrating that functions constructed through repeated composition of non-linear functions are noise sensitive under general product measures.

arxiv情報

著者 Rupert Li,Elchanan Mossel
発行日 2025-02-07 16:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.LG, math.CO, math.PR | Noise Sensitivity of Hierarchical Functions and Deep Learning Lower Bounds in General Product Measures はコメントを受け付けていません

Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models

要約

本論文では、ランダム行列resolventの2点関数に関する新しい決定論的等価性を導出する。この結果を用いて、確率的勾配降下法を用いて訓練された様々な高次元線形モデルの性能を統一的に導出する。これには、高次元線形回帰、カーネル回帰、ランダム特徴モデルが含まれる。我々の結果は、以前から知られている漸近法だけでなく、新しい漸近法も含んでいる。

要約(オリジナル)

We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and random feature models. Our results include previously known asymptotics as well as novel ones.

arxiv情報

著者 Alexander Atanasov,Blake Bordelon,Jacob A. Zavatone-Veth,Courtney Paquette,Cengiz Pehlevan
発行日 2025-02-07 16:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML | Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models はコメントを受け付けていません

Discrepancies are Virtue: Weak-to-Strong Generalization through Lens of Intrinsic Dimension

要約

弱い(W2S)一般化は、弱い教師によって生成された擬似ラベルで強力な(大)生徒モデルが訓練される微調整(FT)の一種です。
驚くべきことに、W2S FTはしばしば弱い先生を上回ります。
私たちは、FTが本質的に低次元空間でしばしば発生するという観察を通して、この現象を理解しようとします。
FTの低い内因性次元を活用すると、分散削減の観点から、Ridgeless Regression設定のW2を分析します。
強力な生徒の場合 – 十分に表現力の低い低次元の特徴サブスペースを持つ弱い教師のペア$ \ mathcal {v} _s、\ mathcal {v} _w $、W2Sの一般化誤差を支配する分散の正確な特性評価を提供します。
これは、W2Sの強いモデルと弱いモデルの間の矛盾の美徳を明らかにします。弱い教師の分散は、$ \ Mathcal {v} _s \ cap \ mathcal {v} _w $で強い生徒に継承されますが、因子によって減少します。
$ \ dim(\ mathcal {v} _s)/n $の不一致のサブスペースの$ \ mathcal {v} _w \ setminus \ mathcal {v} _s $ with $ n $ pseudo-labels for w2s。
さらに、分析では、サンプルの複雑さと、W2Sのパフォーマンスギャップ回復のスケーリングに光を当てます。
この分析は、合成回帰問題と実際の視覚タスクの両方に関する実験でサポートされています。

要約(オリジナル)

Weak-to-strong (W2S) generalization is a type of finetuning (FT) where a strong (large) student model is trained on pseudo-labels generated by a weak teacher. Surprisingly, W2S FT often outperforms the weak teacher. We seek to understand this phenomenon through the observation that FT often occurs in intrinsically low-dimensional spaces. Leveraging the low intrinsic dimensionality of FT, we analyze W2S in the ridgeless regression setting from a variance reduction perspective. For a strong student – weak teacher pair with sufficiently expressive low-dimensional feature subspaces $\mathcal{V}_s, \mathcal{V}_w$, we provide an exact characterization of the variance that dominates the generalization error of W2S. This unveils a virtue of discrepancy between the strong and weak models in W2S: the variance of the weak teacher is inherited by the strong student in $\mathcal{V}_s \cap \mathcal{V}_w$, while reduced by a factor of $\dim(\mathcal{V}_s)/N$ in the subspace of discrepancy $\mathcal{V}_w \setminus \mathcal{V}_s$ with $N$ pseudo-labels for W2S. Further, our analysis casts light on the sample complexities and the scaling of performance gap recovery in W2S. The analysis is supported with experiments on both synthetic regression problems and real vision tasks.

arxiv情報

著者 Yijun Dong,Yicheng Li,Yunai Li,Jason D. Lee,Qi Lei
発行日 2025-02-07 16:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML | Discrepancies are Virtue: Weak-to-Strong Generalization through Lens of Intrinsic Dimension はコメントを受け付けていません

Representation of Molecules via Algebraic Data Types : Advancing Beyond SMILES & SELFIES

要約

代数法則に従うより単純なタイプの組み合わせにより形成された複合データ構造(ADT)を通じて、新しい分子表現を導入します。
表現のデータタイプが実行される可能性のある操作をどのように制約するかを明示的に検討することにより、生成モデル(サンプルを備えたプログラム}およびスコア操作)に対して意味のある推論を実行できるようにします。
これは、ストリングタイプの操作が間接的に化学的および物理分子特性にのみ対応し、最悪の場合は無意味な出力を生成する文字列ベースの表現とは対照的です。
ADTは、マルチグラフとボンディングシステムを介して分子構成のDIETZ表現を実装し、アトミック座標データを使用して3D情報と立体化学的特徴を表します。
これにより、文字列ベースの表現の制限と、それらが基づいている2Dグラフベースのモデルを上回る一般的なデジタル分子表現が作成されます。
さらに、シェル、サブシェル、軌道の表現を通じて量子情報に対する新しいサポートを提示し、分子軌道理論のように、現在のアプローチを超えて表現範囲を大幅に拡大します。
フレームワークの機能は、主要なアプリケーションを通じて実証されています。ベイジアン確率的プログラミングは、怠zyな確率的プログラミングライブラリであるLazyPplとの統合を通じて実証されています。
分子は、さまざまな表現の下で分子特性の不変性を活用する幾何学学習技術に必要な、回転中のグループのインスタンスで作られています。
また、フレームワークの柔軟性は、化学反応をモデル化するための拡張を通じて実証されています。
以前の表現を批判した後、Haskellでオープンソースソリューションを提供します。これは、タイプセーフ、純粋に機能的なプログラミング言語です。

要約(オリジナル)

We introduce a novel molecular representation through Algebraic Data Types (ADTs) – composite data structures formed through the combination of simpler types that obey algebraic laws. By explicitly considering how the datatype of a representation constrains the operations which may be performed, we ensure meaningful inference can be performed over generative models (programs with sample} and score operations). This stands in contrast to string-based representations where string-type operations may only indirectly correspond to chemical and physical molecular properties, and at worst produce nonsensical output. The ADT presented implements the Dietz representation for molecular constitution via multigraphs and bonding systems, and uses atomic coordinate data to represent 3D information and stereochemical features. This creates a general digital molecular representation which surpasses the limitations of the string-based representations and the 2D-graph based models on which they are based. In addition, we present novel support for quantum information through representation of shells, subshells, and orbitals, greatly expanding the representational scope beyond current approaches, for instance in Molecular Orbital theory. The framework’s capabilities are demonstrated through key applications: Bayesian probabilistic programming is demonstrated through integration with LazyPPL, a lazy probabilistic programming library; molecules are made instances of a group under rotation, necessary for geometric learning techniques which exploit the invariance of molecular properties under different representations; and the framework’s flexibility is demonstrated through an extension to model chemical reactions. After critiquing previous representations, we provide an open-source solution in Haskell – a type-safe, purely functional programming language.

arxiv情報

著者 Oliver Goldstein,Samuel March
発行日 2025-02-07 16:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.PL | Representation of Molecules via Algebraic Data Types : Advancing Beyond SMILES & SELFIES はコメントを受け付けていません

Non-linear Quantum Monte Carlo

要約

ランダム変数の平均は、確率分布の空間で$ \ textit {linear} $機能として理解できます。
量子コンピューティングは、平均推定のために古典的なモンテカルロ法よりも2次スピードアップを提供することが知られています。
このホワイトペーパーでは、$ \ textIT {non-linear} $の確率分布の機能を推定するために、同様の二次スピードアップが達成できるかどうかを調査します。
ネストされた条件付きの期待や確率的最適化など、幅広いクラスの非線形推定問題のためにこのようなスピードアップを達成する量子インスサイド – 四四質カルロアルゴリズムを提案します。
私たちのアルゴリズムは、AN等によって導入された量子マルチレベルモンテカルロアルゴリズムの直接適用により改善されます。既存の下限は、アルゴリズムが最適なポリロガリズム因子であることを示しています。
私たちのアプローチの重要な革新は、アルゴリズムのパフォーマンスの向上の中心である量子コンピューティングのために特別に設計されたマルチレベルモンテカルロ近似の新しいシーケンスです。

要約(オリジナル)

The mean of a random variable can be understood as a $\textit{linear}$ functional on the space of probability distributions. Quantum computing is known to provide a quadratic speedup over classical Monte Carlo methods for mean estimation. In this paper, we investigate whether a similar quadratic speedup is achievable for estimating $\textit{non-linear}$ functionals of probability distributions. We propose a quantum-inside-quantum Monte Carlo algorithm that achieves such a speedup for a broad class of non-linear estimation problems, including nested conditional expectations and stochastic optimization. Our algorithm improves upon the direct application of the quantum multilevel Monte Carlo algorithm introduced by An et al.. The existing lower bound indicates that our algorithm is optimal up polylogarithmic factors. A key innovation of our approach is a new sequence of multilevel Monte Carlo approximations specifically designed for quantum computing, which is central to the algorithm’s improved performance.

arxiv情報

著者 Jose Blanchet,Yassine Hamoudi,Mario Szegedy,Guanyang Wang
発行日 2025-02-07 17:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, quant-ph, stat.CO, stat.ML | Non-linear Quantum Monte Carlo はコメントを受け付けていません

3DMolFormer: A Dual-channel Framework for Structure-based Drug Discovery

要約

タンパク質リガンドドッキングとポケットアウェア3Dドラッグデザインのタスクを網羅する構造ベースの創薬は、創薬の中心的な課題を表しています。
ただし、両方のタスクに対処するための既存の作業は、それらの間の二重性を効果的に活用することはできません。各タスクの現在の方法は、3D情報のモデリングと利用可能なデータの制限の課題によって妨げられます。
これらの問題に対処するために、ドッキングと3Dの薬物設計タスクの両方に適用される統一されたデュアルチャネルトランスベースのフレームワークである3Dmolformerを提案します。
具体的には、離散トークンと連続数の並列シーケンスを使用して3Dポケットリガンド複合体を表し、対応するデュアルチャネルトランスモデルを設計してこの形式を処理し、3D情報モデリングの課題を克服します。
さらに、混合データセットでの大規模なトレーニングを通じてデータの制限を緩和し、2つのタスクに合わせてそれぞれ監視された補強学習微調整技術が続きます。
実験結果は、3Dmolformerがタンパク質リガンドドッキングとポケットアウェア3D薬物設計の両方で以前のアプローチを上回ることを示しており、構造ベースの創薬における有望なアプリケーションを強調しています。
このコードは、https://github.com/hxyfighter/3dmolformerで入手できます。

要約(オリジナル)

Structure-based drug discovery, encompassing the tasks of protein-ligand docking and pocket-aware 3D drug design, represents a core challenge in drug discovery. However, no existing work can deal with both tasks to effectively leverage the duality between them, and current methods for each task are hindered by challenges in modeling 3D information and the limitations of available data. To address these issues, we propose 3DMolFormer, a unified dual-channel transformer-based framework applicable to both docking and 3D drug design tasks, which exploits their duality by utilizing docking functionalities within the drug design process. Specifically, we represent 3D pocket-ligand complexes using parallel sequences of discrete tokens and continuous numbers, and we design a corresponding dual-channel transformer model to handle this format, thereby overcoming the challenges of 3D information modeling. Additionally, we alleviate data limitations through large-scale pre-training on a mixed dataset, followed by supervised and reinforcement learning fine-tuning techniques respectively tailored for the two tasks. Experimental results demonstrate that 3DMolFormer outperforms previous approaches in both protein-ligand docking and pocket-aware 3D drug design, highlighting its promising application in structure-based drug discovery. The code is available at: https://github.com/HXYfighter/3DMolFormer .

arxiv情報

著者 Xiuyuan Hu,Guoqing Liu,Can Chen,Yang Zhao,Hao Zhang,Xue Liu
発行日 2025-02-07 17:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG | 3DMolFormer: A Dual-channel Framework for Structure-based Drug Discovery はコメントを受け付けていません