KinDEL: DNA-Encoded Library Dataset for Kinase Inhibitors

要約

DNA エンコード ライブラリ (DEL) は、多様な化学空間を特徴付ける効率的な方法を提供する組み合わせ小分子ライブラリです。
DEL を使用した選択実験は創薬の取り組みにとって極めて重要であり、ヒット発見のための高スループットのスクリーニングを可能にします。
ただし、公開されている DEL データセットの利用可能性が限られているため、そのようなデータを処理するために設計された計算技術の進歩が妨げられています。
このギャップを埋めるために、我々は、マイトジェン活性化プロテインキナーゼ 14 (MAPK14) とディスコイジン ドメイン受容体チロシン キナーゼ 1 (DDR1) という 2 つのキナーゼに関する、最初に公開された大規模な DEL データセットの 1 つである KinDEL を紹介します。
このデータモダリティへの関心は、選択された分子構造の周囲を高密度でサンプリングする広範な教師付き化学データを生成できるため、高まっています。
データのそのようなアプリケーションの 1 つを実証するために、ヒットを識別するための予測モデルを開発するために、さまざまな機械学習手法のベンチマークを行います。
特に、最近の構造ベースの確率的アプローチに焦点を当てます。
最後に、分子のより小さなサブセットでモデルを検証するために、DNA 上と DNA 外の両方の生物物理学的アッセイ データを提供します。
ベンチマークのデータとコードは、https://github.com/insitro/kindel でご覧いただけます。

要約(オリジナル)

DNA-Encoded Libraries (DEL) are combinatorial small molecule libraries that offer an efficient way to characterize diverse chemical spaces. Selection experiments using DELs are pivotal to drug discovery efforts, enabling high-throughput screens for hit finding. However, limited availability of public DEL datasets hinders the advancement of computational techniques designed to process such data. To bridge this gap, we present KinDEL, one of the first large, publicly available DEL datasets on two kinases: Mitogen-Activated Protein Kinase 14 (MAPK14) and Discoidin Domain Receptor Tyrosine Kinase 1 (DDR1). Interest in this data modality is growing due to its ability to generate extensive supervised chemical data that densely samples around select molecular structures. Demonstrating one such application of the data, we benchmark different machine learning techniques to develop predictive models for hit identification; in particular, we highlight recent structure-based probabilistic approaches. Finally, we provide biophysical assay data, both on- and off-DNA, to validate our models on a smaller subset of molecules. Data and code for our benchmarks can be found at: https://github.com/insitro/kindel.

arxiv情報

著者 Benson Chen,Tomasz Danel,Patrick J. McEnaney,Nikhil Jain,Kirill Novikov,Spurti Umesh Akki,Joshua L. Turnbull,Virja Atul Pandya,Boris P. Belotserkovskii,Jared Bryce Weaver,Ankita Biswas,Dat Nguyen,Gabriel H. S. Dreiman,Mohammad Sultan,Nathaniel Stanley,Daniel M Whalen,Divya Kanichar,Christoph Klein,Emily Fox,R. Edward Watts
発行日 2024-10-11 16:03:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | KinDEL: DNA-Encoded Library Dataset for Kinase Inhibitors はコメントを受け付けていません

A tutorial on automatic differentiation with complex numbers

要約

自動微分はどこにでもありますが、’$\mathbb{C}^d$’ $\cong$ ‘$\mathbb{R}^{2d} の微分を述べる以上に、それが複雑な算術でどのように機能するかについての最小限のドキュメントしか存在しません。
$’ と、せいぜい Wirtinger 計算への浅い言及です。
残念ながら、等価性 $\mathbb{C}^d \cong \mathbb{R}^{2d}$ は、たとえば高価な線形代数関数や
微分方程式シミュレータ。
このようなドキュメントの不足に対処するために、この記事では、正則性とコーシー-リーマン方程式を明示的に回避しながら、ヴィルティンガー導関数、修正連鎖則、さまざまな勾配規則などのトピックを取り上げ、複素数を使用した順モードおよび逆モードの自動微分について概説します。
(これでは制限が厳しすぎます)。
正確には、複雑な解析や微分幾何学に依存せずに、ほぼ完全に線形代数を使用して、ヤコビアン ベクトルおよびベクトル ヤコビアン積の複雑なバージョンを導出し、説明し、実装します。
このチュートリアルは、ユーザーと開発者に同様に、カスタム勾配伝播ルールを実装する際に複雑な値を真剣に受け止めるよう行動を促すものであり、原稿ではその方法について説明しています。

要約(オリジナル)

Automatic differentiation is everywhere, but there exists only minimal documentation of how it works in complex arithmetic beyond stating ‘derivatives in $\mathbb{C}^d$’ $\cong$ ‘derivatives in $\mathbb{R}^{2d}$’ and, at best, shallow references to Wirtinger calculus. Unfortunately, the equivalence $\mathbb{C}^d \cong \mathbb{R}^{2d}$ becomes insufficient as soon as we need to derive custom gradient rules, e.g., to avoid differentiating ‘through’ expensive linear algebra functions or differential equation simulators. To combat such a lack of documentation, this article surveys forward- and reverse-mode automatic differentiation with complex numbers, covering topics such as Wirtinger derivatives, a modified chain rule, and different gradient conventions while explicitly avoiding holomorphicity and the Cauchy–Riemann equations (which would be far too restrictive). To be precise, we will derive, explain, and implement a complex version of Jacobian-vector and vector-Jacobian products almost entirely with linear algebra without relying on complex analysis or differential geometry. This tutorial is a call to action, for users and developers alike, to take complex values seriously when implementing custom gradient propagation rules — the manuscript explains how.

arxiv情報

著者 Nicholas Krämer
発行日 2024-10-11 16:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MS, cs.NA, math.NA | A tutorial on automatic differentiation with complex numbers はコメントを受け付けていません

Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning

要約

距離ベースのクラスタリングと分類は、混合された数値データとカテゴリデータをグループ化するためにさまざまな分野で広く使用されています。
多くのアルゴリズムでは、事前定義された距離測定値を使用して、データ ポイントの非類似性に基づいてデータ ポイントをクラスタリングします。
純粋な数値属性といくつかの順序付きおよび順序なしのカテゴリメトリクスを持つデータには距離ベースの尺度が多数存在しますが、連続特性と離散特性を同時に利用する混合型データの効率的かつ正確な距離は未解決の問題です。
多くのメトリクスは、数値属性をカテゴリ属性に、またはその逆に変換します。
データ ポイントを単一の属性タイプとして処理するか、各属性間の距離を個別に計算して合計します。
私たちは、混合カーネルを使用して非類似性を測定し、相互検証された最適な帯域幅を選択する KDSUM と呼ばれるメトリクスを提案します。
KDSUM は既存の混合タイプのメトリクスから一様な非類似性メトリクスへの縮小手法であり、連続のみ、カテゴリのみ、および
混合型データ。

要約(オリジナル)

Distance-based clustering and classification are widely used in various fields to group mixed numeric and categorical data. In many algorithms, a predefined distance measurement is used to cluster data points based on their dissimilarity. While there exist numerous distance-based measures for data with pure numerical attributes and several ordered and unordered categorical metrics, an efficient and accurate distance for mixed-type data that utilizes the continuous and discrete properties simulatenously is an open problem. Many metrics convert numerical attributes to categorical ones or vice versa. They handle the data points as a single attribute type or calculate a distance between each attribute separately and add them up. We propose a metric called KDSUM that uses mixed kernels to measure dissimilarity, with cross-validated optimal bandwidth selection. We demonstrate that KDSUM is a shrinkage method from existing mixed-type metrics to a uniform dissimilarity metric, and improves clustering accuracy when utilized in existing distance-based clustering algorithms on simulated and real-world datasets containing continuous-only, categorical-only, and mixed-type data.

arxiv情報

著者 Jesse S. Ghashti,John R. J. Thompson
発行日 2024-10-11 16:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G07, 65D10, cs.LG, G.3, stat.CO, stat.ME, stat.OT | Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning はコメントを受け付けていません

Learning a Neural Solver for Parametric PDE to Enhance Physics-Informed Methods

要約

物理情報に基づいた深層学習は、偏微分方程式 (PDE) を解く複雑さのため、最適化の課題に直面することがよくあります。これには、大きな解空間の探索が含まれ、多数の反復が必要となり、トレーニングが不安定になる可能性があります。
これらの課題は、特に損失関数の微分項によって引き起こされる最適化問題の悪条件から発生します。
これらの問題に対処するために、ソルバーを学習すること、つまり、データに基づいてトレーニングされた物理学に基づいた反復アルゴリズムを使用して偏微分方程式を解くことを提案します。
私たちのメソッドは、各 PDE インスタンスに自動的に適応する勾配降下アルゴリズムを調整することを学習し、最適化プロセスを大幅に加速して安定させ、物理認識モデルのより高速な収束を可能にします。
さらに、従来の物理学に基づいた方法は単一の偏微分方程式インスタンスを解決しますが、私たちのアプローチはパラメトリック偏微分方程式に対処します。
具体的には、私たちの方法は物理的損失勾配を PDE パラメーターと統合して、係数、初期条件、または境界条件を含む PDE パラメーターの分布を解決します。
複数のデータセットに対する実証実験を通じて、トレーニングとテスト時の最適化パフォーマンスを比較することで、この方法の有効性を実証します。

要約(オリジナル)

Physics-informed deep learning often faces optimization challenges due to the complexity of solving partial differential equations (PDEs), which involve exploring large solution spaces, require numerous iterations, and can lead to unstable training. These challenges arise particularly from the ill-conditioning of the optimization problem, caused by the differential terms in the loss function. To address these issues, we propose learning a solver, i.e., solving PDEs using a physics-informed iterative algorithm trained on data. Our method learns to condition a gradient descent algorithm that automatically adapts to each PDE instance, significantly accelerating and stabilizing the optimization process and enabling faster convergence of physics-aware models. Furthermore, while traditional physics-informed methods solve for a single PDE instance, our approach addresses parametric PDEs. Specifically, our method integrates the physical loss gradient with the PDE parameters to solve over a distribution of PDE parameters, including coefficients, initial conditions, or boundary conditions. We demonstrate the effectiveness of our method through empirical experiments on multiple datasets, comparing training and test-time optimization performance.

arxiv情報

著者 Lise Le Boudec,Emmanuel de Bezenac,Louis Serrano,Ramon Daniel Regueiro-Espino,Yuan Yin,Patrick Gallinari
発行日 2024-10-11 16:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Learning a Neural Solver for Parametric PDE to Enhance Physics-Informed Methods はコメントを受け付けていません

Lifted Coefficient of Determination: Fast model-free prediction intervals and likelihood-free model comparison

要約

我々は $\textit{リフト線形モデル}$ を提案し、予測と観測の間の相関が増加するにつれて狭くなるモデルフリー予測区間を導出します。
これらの間隔は、回帰、分類、カウントなどの予測ベースの設定における任意の損失関数のモデル比較基準である $\textit{リフト決定係数}$ の動機付けとなります。
予測区間をより一般的な誤差分布に拡張し、回帰のための高速なモデルフリーの外れ値検出アルゴリズムを提案します。
最後に、数値実験を通じてフレームワークを説明します。

要約(オリジナル)

We propose the $\textit{lifted linear model}$, and derive model-free prediction intervals that become tighter as the correlation between predictions and observations increases. These intervals motivate the $\textit{Lifted Coefficient of Determination}$, a model comparison criterion for arbitrary loss functions in prediction-based settings, e.g., regression, classification or counts. We extend the prediction intervals to more general error distributions, and propose a fast model-free outlier detection algorithm for regression. Finally, we illustrate the framework via numerical experiments.

arxiv情報

著者 Daniel Salnikov,Kevin Michalewicz,Dan Leonte
発行日 2024-10-11 16:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62Gxx, cs.LG, G.3, stat.ML | Lifted Coefficient of Determination: Fast model-free prediction intervals and likelihood-free model comparison はコメントを受け付けていません

LibMOON: A Gradient-based MultiObjective OptimizatioN Library in PyTorch

要約

多目的最適化問題 (MOP) は、機械学習で一般的であり、マルチタスク学習、公平性またはロバストネス制約の下での学習などに応用されています。MOP は、複数の目的関数をスカラー目標に縮小するのではなく、いわゆるパレートに対して最適化することを目的としています。
最適性またはパレート集合学習。これには、数千または数百万のパラメーターを持つモデルに対して複数の目的関数を同時に最適化することが含まれます。
MOP 用の既存のベンチマーク ライブラリは主に進化的アルゴリズムに焦点を当てていますが、そのほとんどはゼロ次/メタヒューリスティック手法であり、目的からの高次情報を効果的に利用しておらず、数千/数百万のパラメータを持つ大規模モデルに拡張することができません。
上記のギャップを考慮して、この文書では、最先端の勾配ベースの手法をサポートし、公正なベンチマークを提供し、コミュニティ向けにオープンソース化された初の多目的最適化ライブラリである LibMOON を紹介します。

要約(オリジナル)

Multiobjective optimization problems (MOPs) are prevalent in machine learning, with applications in multi-task learning, learning under fairness or robustness constraints, etc. Instead of reducing multiple objective functions into a scalar objective, MOPs aim to optimize for the so-called Pareto optimality or Pareto set learning, which involves optimizing more than one objective function simultaneously, over models with thousands / millions of parameters. Existing benchmark libraries for MOPs mainly focus on evolutionary algorithms, most of which are zeroth-order / meta-heuristic methods that do not effectively utilize higher-order information from objectives and cannot scale to large-scale models with thousands / millions of parameters. In light of the above gap, this paper introduces LibMOON, the first multiobjective optimization library that supports state-of-the-art gradient-based methods, provides a fair benchmark, and is open-sourced for the community.

arxiv情報

著者 Xiaoyuan Zhang,Liang Zhao,Yingying Yu,Xi Lin,Yifan Chen,Han Zhao,Qingfu Zhang
発行日 2024-10-11 16:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MS, math.OC | LibMOON: A Gradient-based MultiObjective OptimizatioN Library in PyTorch はコメントを受け付けていません

Online-to-PAC generalization bounds under graph-mixing dependencies

要約

統計学習における従来の一般化の結果には、個別に抽出されたサンプルから作成されたトレーニング データ セットが必要です。
この独立性の仮定を緩和するための最近の取り組みのほとんどは、純粋に時間的な (混合) 依存関係、または隣接しない頂点が独立した確率変数に対応するグラフ依存関係を考慮しています。
どちらのアプローチにも独自の制限があり、前者には時間的な順序構造が必要ですが、後者には相互依存関係の強さを定量化する方法がありません。
この研究では、グラフの距離に応じて依存関係が減衰するフレームワークを提案することで、これら 2 つの作業ラインを橋渡しします。
集中結果を導き出し、グラフ構造を組み込んだオンライン学習フレームワークを導入することにより、オンラインから PAC へのフレームワークを活用して汎化限界を導き出します。
結果として得られる高確率の一般化保証は、混合率とグラフの彩色数の両方に依存します。

要約(オリジナル)

Traditional generalization results in statistical learning require a training data set made of independently drawn examples. Most of the recent efforts to relax this independence assumption have considered either purely temporal (mixing) dependencies, or graph-dependencies, where non-adjacent vertices correspond to independent random variables. Both approaches have their own limitations, the former requiring a temporal ordered structure, and the latter lacking a way to quantify the strength of inter-dependencies. In this work, we bridge these two lines of work by proposing a framework where dependencies decay with graph distance. We derive generalization bounds leveraging the online-to-PAC framework, by deriving a concentration result and introducing an online learning framework incorporating the graph structure. The resulting high-probability generalization guarantees depend on both the mixing rate and the graph’s chromatic number.

arxiv情報

著者 Baptiste Abélès,Eugenio Clerico,Gergely Neu
発行日 2024-10-11 16:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Online-to-PAC generalization bounds under graph-mixing dependencies はコメントを受け付けていません

Hedging and Approximate Truthfulness in Traditional Forecasting Competitions

要約

予想コンテストでは、従来のメカニズムにより、各イベントの結果に対して各出場者の予想がスコアリングされ、合計スコアが最も高い出場者が優勝します。
この伝統的な仕組みがインセンティブの問題に悩まされる可能性があることはよく知られていますが、イベントの数が増えても出場者は依然としてほぼ真実を語るというのが民間伝承です。
しかし、これまでのところ、文献にはこの伝統的なメカニズムの正式な分析が欠けています。
この論文では、そのような分析を初めて示します。
まず、「長期的な真実性」という民間伝承が誤りであることを証明します。たとえ任意の数の出来事であっても、最も優れた予測者は、勝つ可能性を高めるためにより穏健な信念を報告し、ヘッジするインセンティブを持つ可能性があります。
しかし、良い面としては、対戦相手の相対的な資質とイベントの結果について十分な不確実性がある場合、2 人の出場者はほぼ真実であることがわかります。これは実際に起こり得るケースです。

要約(オリジナル)

In forecasting competitions, the traditional mechanism scores the predictions of each contestant against the outcome of each event, and the contestant with the highest total score wins. While it is well-known that this traditional mechanism can suffer from incentive issues, it is folklore that contestants will still be roughly truthful as the number of events grows. Yet thus far the literature lacks a formal analysis of this traditional mechanism. This paper gives the first such analysis. We first demonstrate that the ”long-run truthfulness” folklore is false: even for arbitrary numbers of events, the best forecaster can have an incentive to hedge, reporting more moderate beliefs to increase their win probability. On the positive side, however, we show that two contestants will be approximately truthful when they have sufficient uncertainty over the relative quality of their opponent and the outcomes of the events, a case which may arise in practice.

arxiv情報

著者 Mary Monroe,Anish Thilagar,Melody Hsu,Rafael Frongillo
発行日 2024-10-11 16:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG | Hedging and Approximate Truthfulness in Traditional Forecasting Competitions はコメントを受け付けていません

Optimal Downsampling for Imbalanced Classification with Generalized Linear Models

要約

ダウンサンプリングまたはアンダーサンプリングは、大規模で非常に不均衡な分類モデルのコンテキストで利用される手法です。
一般化線形モデル (GLM) を使用して、不均衡な分類に最適なダウンサンプリングを研究します。
我々は、擬似最尤推定量を提案し、サンプルサイズがますます大きくなるにつれて母集団の不均衡がますます大きくなるという状況において、その漸近正規性を研究します。
導入した推定器については理論上の保証を行っております。
さらに、統計的精度と計算効率のバランスをとる基準を使用して、最適なダウンサンプリング レートを計算します。
合成データと経験的データの両方に対して実施された数値実験は、理論的結果をさらに検証し、導入された推定器が一般に利用可能な代替推定器よりも優れていることを実証しました。

要約(オリジナル)

Downsampling or under-sampling is a technique that is utilized in the context of large and highly imbalanced classification models. We study optimal downsampling for imbalanced classification using generalized linear models (GLMs). We propose a pseudo maximum likelihood estimator and study its asymptotic normality in the context of increasingly imbalanced populations relative to an increasingly large sample size. We provide theoretical guarantees for the introduced estimator. Additionally, we compute the optimal downsampling rate using a criterion that balances statistical accuracy and computational efficiency. Our numerical experiments, conducted on both synthetic and empirical data, further validate our theoretical results, and demonstrate that the introduced estimator outperforms commonly available alternatives.

arxiv情報

著者 Yan Chen,Jose Blanchet,Krzysztof Dembczynski,Laura Fee Nern,Aaron Flores
発行日 2024-10-11 17:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Optimal Downsampling for Imbalanced Classification with Generalized Linear Models はコメントを受け付けていません

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

要約

さまざまなドメインから事前に収集されたデータの再利用は、ターゲット ドメインにはデータが不十分だが、他の関連ドメインには比較的豊富なデータがある意思決定タスクにとって魅力的なソリューションです。
既存のクロスドメインポリシー転送方法は主に、ドメイン/タスク固有の識別子、表現、またはポリシーの学習など、ポリシー学習を促進するためにドメインの対応または修正を学習することを目的としています。
この設計哲学では、多くの場合、柔軟性に欠ける重いモデル アーキテクチャまたはタスク/ドメイン固有のモデリングが発生します。
この現実は私たちに疑問を抱かせます。複雑なダウンストリームのクロスドメイン ポリシー転送モデルに依存するのではなく、データ レベルで普遍的にドメイン ギャップを直接埋めることができるだろうか?
この研究では、クロスドメイン軌道適応のために特別に設計された拡散モデルを採用するクロスドメイン軌道編集 (xTED) フレームワークを提案します。
私たちが提案するモデル アーキテクチャは、状態、アクション、報酬の間の複雑な依存関係と、ターゲット データ内のダイナミクス パターンを効果的に捕捉します。
事前にトレーニングされた拡散を事前として利用することにより、元の意味情報を保持しながら、ソース ドメインの軌跡をターゲット ドメインのプロパティと一致するように変換できます。
このプロセスは、根底にあるドメイン ギャップを暗黙的に修正し、ソース データの状態の現実性とダイナミクスの信頼性を高め、さまざまな下流のポリシー学習方法との柔軟な組み込みを可能にします。
そのシンプルさにも関わらず、xTED は広範なシミュレーションや実際のロボット実験で優れたパフォーマンスを実証します。

要約(オリジナル)

Reusing pre-collected data from different domains is an appealing solution for decision-making tasks that have insufficient data in the target domain but are relatively abundant in other related domains. Existing cross-domain policy transfer methods mostly aim at learning domain correspondences or corrections to facilitate policy learning, such as learning domain/task-specific discriminators, representations, or policies. This design philosophy often results in heavy model architectures or task/domain-specific modeling, lacking flexibility. This reality makes us wonder: can we directly bridge the domain gaps universally at the data level, instead of relying on complex downstream cross-domain policy transfer models? In this study, we propose the Cross-Domain Trajectory EDiting (xTED) framework that employs a specially designed diffusion model for cross-domain trajectory adaptation. Our proposed model architecture effectively captures the intricate dependencies among states, actions, and rewards, as well as the dynamics patterns within target data. By utilizing the pre-trained diffusion as a prior, source domain trajectories can be transformed to match with target domain properties while preserving original semantic information. This process implicitly corrects underlying domain gaps, enhancing state realism and dynamics reliability in the source data, and allowing flexible incorporation with various downstream policy learning methods. Despite its simplicity, xTED demonstrates superior performance in extensive simulation and real-robot experiments.

arxiv情報

著者 Haoyi Niu,Qimao Chen,Tenglong Liu,Jianxiong Li,Guyue Zhou,Yi Zhang,Jianming Hu,Xianyuan Zhan
発行日 2024-10-11 17:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing はコメントを受け付けていません