Distributional Diffusion Models with Scoring Rules

要約

拡散モデルは、高品質の合成データを生成します。
それらは、完全に破損するまでデータにガウスノイズを徐々に追加する連続時間の前方プロセスを定義することで動作します。
対応する逆プロセスは、データ分布のサンプルにガウスのサンプルを徐々に「除去」します。
ただし、高品質の出力を生成するには、逆プロセスの忠実な近似を取得するために多くの離散化ステップが必要です。
これは高価であり、多くの加速方法の開発を動機付けています。
この分布の平均のみではなく、ノイズの多いバージョンを考慮して、クリーンデータサンプルの後部{\ em分布}を学習することにより、サンプル生成を達成することを提案します。
これにより、粗い時間スケールで逆プロセスの確率遷移からサンプリングでき、出力の品質の最小限の分解で推論を大幅に加速させます。
これは、条件平均をスコアリングルールに推定するために使用される標準回帰損失を置き換えることによって達成されます。
画像とロボットの軌道生成に関する方法を検証します。この方法では、いくつかの離散化ステップで標準拡散モデルを常に上回ります。

要約(オリジナル)

Diffusion models generate high-quality synthetic data. They operate by defining a continuous-time forward process which gradually adds Gaussian noise to data until fully corrupted. The corresponding reverse process progressively ‘denoises’ a Gaussian sample into a sample from the data distribution. However, generating high-quality outputs requires many discretization steps to obtain a faithful approximation of the reverse process. This is expensive and has motivated the development of many acceleration methods. We propose to accomplish sample generation by learning the posterior {\em distribution} of clean data samples given their noisy versions, instead of only the mean of this distribution. This allows us to sample from the probability transitions of the reverse process on a coarse time scale, significantly accelerating inference with minimal degradation of the quality of the output. This is accomplished by replacing the standard regression loss used to estimate conditional means with a scoring rule. We validate our method on image and robot trajectory generation, where we consistently outperform standard diffusion models at few discretization steps.

arxiv情報

著者 Valentin De Bortoli,Alexandre Galashov,J. Swaroop Guntupalli,Guangyao Zhou,Kevin Murphy,Arthur Gretton,Arnaud Doucet
発行日 2025-02-25 18:21:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Distributional Diffusion Models with Scoring Rules はコメントを受け付けていません

Global law of conjugate kernel random matrices with heavy-tailed weights

要約

コンジュゲートカーネルランダムマトリックス$ yy^\ top $の漸近スペクトル挙動を研究します。ここで、$ y = f(wx)$は2層ニューラルネットワークモデルから生じます。
$ w $と$ x $が両方ともランダムな長方形のマトリックスである設定をI.I.D.
$ w $のエントリが重い尾のある分布に続いているエントリは、$ x $のエントリがライトテールを持っています。
$ w $に関する私たちの仮定には、$ \ alpha \ in(0,2)$を備えた対称$ \ alpha $ stable法則など、$ \ mathcal {o}を備えたスパースマトリックスなど、幅広いクラスの重尾分布が含まれています(1
)$行ごとのゼロ以外のエントリ。
アクティベーション関数$ f $は、エントリワイズで適用され、非線形、滑らかで、奇数です。
$ yy^\ top $の固有値分布をそのモーメントで計算することにより、重量が$ y $のエントリ間に強い相関関係を誘発し、軽量の重量を持つモデルと比較してより豊かで根本的に異なるスペクトル挙動につながることを示します。

要約(オリジナル)

We study the asymptotic spectral behavior of the conjugate kernel random matrix $YY^\top$, where $Y= f(WX)$ arises from a two-layer neural network model. We consider the setting where $W$ and $X$ are both random rectangular matrices with i.i.d. entries, where the entries of $W$ follow a heavy-tailed distribution, while those of $X$ have light tails. Our assumptions on $W$ include a broad class of heavy-tailed distributions, such as symmetric $\alpha$-stable laws with $\alpha \in (0,2)$ and sparse matrices with $\mathcal{O}(1)$ nonzero entries per row. The activation function $f$, applied entrywise, is nonlinear, smooth, and odd. By computing the eigenvalue distribution of $YY^\top$ through its moments, we show that heavy-tailed weights induce strong correlations between the entries of $Y$, leading to richer and fundamentally different spectral behavior compared to models with light-tailed weights.

arxiv情報

著者 Alice Guionnet,Vanessa Piccolo
発行日 2025-02-25 18:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 15B52, 60B20, 68T07, cs.LG, math.PR, stat.ML | Global law of conjugate kernel random matrices with heavy-tailed weights はコメントを受け付けていません

Enhancing selectivity using Wasserstein distance based reweighing

要約

2つのラベル付きデータセット$ \ mathcal {s} $および$ \ mathcal {t} $を与えられた場合、シンプルで効率的な貪欲なアルゴリズムを設計して、トレーニングに起因するニューラルネットワークの重みの制限分布を再計量するために、損失関数を再計量します。
$ \ mathcal {s} $は、$ \ mathcal {t} $でトレーニングすることで生じる制限分布に近づきます。
理論的な面では、入力データセットのメトリックエントロピーが境界が境界に縛られている場合、貪欲なアルゴリズムが最適な再計量に近い、つまり、ネットワークの重みの2つの不変分布が合計変動距離で明らかに近いことを証明します。
さらに、アルゴリズムはシンプルでスケーラブルであり、アルゴリズムの効率についても境界を立てています。
やる気のある用途として、ニューラルネットをトレーニングして、MNK2(非常に類似したタンパク質)の非バインダーであるMNK2(細胞シグナル伝達の原因となるMAPキナーゼ)に小分子バインダーを認識します。
私たちの例データセットでは、エナミンカタログから最も選択的であると予測された43の異なる小分子のうち、2つの小分子が選択的であることを実験的に検証しました。
$ \ mu $ m -5 \%成功率。

要約(オリジナル)

Given two labeled data-sets $\mathcal{S}$ and $\mathcal{T}$, we design a simple and efficient greedy algorithm to reweigh the loss function such that the limiting distribution of the neural network weights that result from training on $\mathcal{S}$ approaches the limiting distribution that would have resulted by training on $\mathcal{T}$. On the theoretical side, we prove that when the metric entropy of the input datasets is bounded, our greedy algorithm outputs a close to optimal reweighing, i.e., the two invariant distributions of network weights will be provably close in total variation distance. Moreover, the algorithm is simple and scalable, and we prove bounds on the efficiency of the algorithm as well. As a motivating application, we train a neural net to recognize small molecule binders to MNK2 (a MAP Kinase, responsible for cell signaling) which are non-binders to MNK1 (a highly similar protein). In our example dataset, of the 43 distinct small molecules predicted to be most selective from the enamine catalog, 2 small molecules were experimentally verified to be selective, i.e., they reduced the enzyme activity of MNK2 below 50\% but not MNK1, at 10$\mu$M — a 5\% success rate.

arxiv情報

著者 Pratik Worah
発行日 2025-02-25 18:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM, stat.ML | Enhancing selectivity using Wasserstein distance based reweighing はコメントを受け付けていません

Reconstruction of dynamical systems from data without time labels

要約

この論文では、時間ラベルなしでデータから動的システムを再構築する方法を研究します。
時間ラベルのないデータは、分子動力学、単一細胞RNAシーケンスなど、多くのアプリケーションに表示されます。時間シーケンスデータからの動的システムの再構築は広範囲に研究されています。
ただし、時間ラベルが不明な場合、これらの方法は適用されません。
時間ラベルがなければ、シーケンスデータは分布データになります。
この観察結果に基づいて、データを確率分布のサンプルとして扱い、分布損失を最小限に抑えることで基礎となる動的システムを再構築することを提案します。
広範な実験結果は、提案された方法の有効性を示しています。

要約(オリジナル)

In this paper, we study the method to reconstruct dynamical systems from data without time labels. Data without time labels appear in many applications, such as molecular dynamics, single-cell RNA sequencing etc. Reconstruction of dynamical system from time sequence data has been studied extensively. However, these methods do not apply if time labels are unknown. Without time labels, sequence data becomes distribution data. Based on this observation, we propose to treat the data as samples from a probability distribution and try to reconstruct the underlying dynamical system by minimizing the distribution loss, sliced Wasserstein distance more specifically. Extensive experiment results demonstrate the effectiveness of the proposed method.

arxiv情報

著者 Zhijun Zeng,Pipi Hu,Chenglong Bao,Yi Zhu,Zuoqiang Shi
発行日 2025-02-25 18:36:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.DS, math.NA | Reconstruction of dynamical systems from data without time labels はコメントを受け付けていません

Supervised Reward Inference

要約

行動からの推論に報いるための既存のアプローチは、通常、人間が特定の行動モデルに従ってデモを提供すると仮定します。
しかし、人間はしばしば、目標を達成するのではなく、目標を達成するのではなく通信することを目的とした行動まで、最適ではない行動から、幅広い行動から目標を示しています。
監督された学習は、あらゆるクラスの行動から報酬機能を推測するための統一されたフレームワークを提供し、そのようなアプローチが軽度の仮定の下で漸近的にベイズ最適であることを示すことを提案します。
シミュレートされたロボット操作タスクの実験は、私たちの方法がさまざまなarbitrarily意的に準最適なデモンストレーションからの報酬を効率的に推測できることを示しています。

要約(オリジナル)

Existing approaches to reward inference from behavior typically assume that humans provide demonstrations according to specific models of behavior. However, humans often indicate their goals through a wide range of behaviors, from actions that are suboptimal due to poor planning or execution to behaviors which are intended to communicate goals rather than achieve them. We propose that supervised learning offers a unified framework to infer reward functions from any class of behavior, and show that such an approach is asymptotically Bayes-optimal under mild assumptions. Experiments on simulated robotic manipulation tasks show that our method can efficiently infer rewards from a wide variety of arbitrarily suboptimal demonstrations.

arxiv情報

著者 Will Schwarzer,Jordan Schneider,Philip S. Thomas,Scott Niekum
発行日 2025-02-25 18:42:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Supervised Reward Inference はコメントを受け付けていません

Manifolds, Random Matrices and Spectral Gaps: The geometric phases of generative diffusion

要約

この論文では、マニホールド仮説の下で生成拡散モデルの潜在的なジオメトリを調査します。
この目的のために、スコア関数のヤコビアンの固有値(および特異値)のスペクトルを分析します。
統計物理学アプローチを使用して、いくつかの分布仮定の下でスペクトルギャップのスペクトル分布と式を導き出し、これらの理論的予測を訓練されたネットワークから推定されたスペクトルと比較します。
私たちの分析は、生成プロセス中に3つの異なる定性的段階の存在を明らかにしています。
拡散プロセスがマニホールド内部の分布に適合する多様なカバレッジフェーズ。
スコアがマニホールドに対して直交する統合フェーズと、すべての粒子がデータのサポートで投影されます。
異なるタイムスケール間のこの「分業」は、生成的拡散モデルが、生成中の異なる時点で生成されるため、尤度ベースのモデルを悩ませるマニホールドオーバーフィッティング現象によって影響を受ける理由のエレガントな説明を提供します。

要約(オリジナル)

In this paper, we investigate the latent geometry of generative diffusion models under the manifold hypothesis. For this purpose, we analyze the spectrum of eigenvalues (and singular values) of the Jacobian of the score function, whose discontinuities (gaps) reveal the presence and dimensionality of distinct sub-manifolds. Using a statistical physics approach, we derive the spectral distributions and formulas for the spectral gaps under several distributional assumptions, and we compare these theoretical predictions with the spectra estimated from trained networks. Our analysis reveals the existence of three distinct qualitative phases during the generative process: a trivial phase; a manifold coverage phase where the diffusion process fits the distribution internal to the manifold; a consolidation phase where the score becomes orthogonal to the manifold and all particles are projected on the support of the data. This `division of labor’ between different timescales provides an elegant explanation of why generative diffusion models are not affected by the manifold overfitting phenomenon that plagues likelihood-based models, since the internal distribution and the manifold geometry are produced at different time points during generation.

arxiv情報

著者 Enrico Ventura,Beatrice Achilli,Gianluigi Silvestri,Carlo Lucibello,Luca Ambrogioni
発行日 2025-02-25 18:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Manifolds, Random Matrices and Spectral Gaps: The geometric phases of generative diffusion はコメントを受け付けていません

Stability-Aware Training of Machine Learning Force Fields with Differentiable Boltzmann Estimators

要約

機械学習力フィールド(MLFF)は、分子動力学(MD)シミュレーションのためのABインニチオ法の魅力的な代替手段です。
ただし、不安定なシミュレーションを作成し、より長いタイムスケールで発生する現象をモデル化する能力を制限し、推定された観測可能性の品質を損なうことができます。
これらの課題に対処するために、安定したボルツマン推定器(安定)トレーニングを提示します。これは、参照量子力学計算とシステム観測可能性から共同監督を活用するマルチモーダルトレーニング手順です。
安定したトレーニングは、不安定な領域を模索するために多くのMDシミュレーションを並行して繰り返し実行し、参照が観察可能な監督による不安定性を修正します。
Boltzmann推定器を使用したMDシミュレーションを通じて、MDシミュレーションを通じて効率的なエンドツーエンドの自動分化を実現します。これは、より広いクラスの確率的アルゴリズムへの暗黙的な分化技術の一般化です。
積極的な学習に基づいた既存の手法とは異なり、私たちのアプローチでは、不安定性を修正するために追加のABインニチオエネルギーと力の計算を必要としません。
3つの最新のMLFFアーキテクチャを使用して、有機分子、テトラペプチド、および凝縮相システムを越えた方法論を実証します。
安定した訓練を受けたモデルは、シミュレーションの安定性、データ効率、および参照観測可能性との一致の大幅な改善を実現します。
シミュレーションタイムステップを減らすことで、安定性の改善は一致することはできません。
したがって、安定したトレーニングにより、より大きなタイムステップが効果的になります。
第一原理計算とともに観測可能性をトレーニングプロセスに組み込むことにより、安定したトレーニングは、MLFFアーキテクチャとシステム全体に適用される一般的な半経験的なフレームワークと見なすことができます。
これにより、特に大規模な参照データセットがない場合、安定した正確なMLFFをトレーニングするための強力なツールになります。
当社のコードは、https://github.com/ask-berkeley/stable-trainingで入手できます。

要約(オリジナル)

Machine learning force fields (MLFFs) are an attractive alternative to ab-initio methods for molecular dynamics (MD) simulations. However, they can produce unstable simulations, limiting their ability to model phenomena occurring over longer timescales and compromising the quality of estimated observables. To address these challenges, we present Stability-Aware Boltzmann Estimator (StABlE) Training, a multi-modal training procedure which leverages joint supervision from reference quantum-mechanical calculations and system observables. StABlE Training iteratively runs many MD simulations in parallel to seek out unstable regions, and corrects the instabilities via supervision with a reference observable. We achieve efficient end-to-end automatic differentiation through MD simulations using our Boltzmann Estimator, a generalization of implicit differentiation techniques to a broader class of stochastic algorithms. Unlike existing techniques based on active learning, our approach requires no additional ab-initio energy and forces calculations to correct instabilities. We demonstrate our methodology across organic molecules, tetrapeptides, and condensed phase systems, using three modern MLFF architectures. StABlE-trained models achieve significant improvements in simulation stability, data efficiency, and agreement with reference observables. The stability improvements cannot be matched by reducing the simulation timestep; thus, StABlE Training effectively allows for larger timesteps. By incorporating observables into the training process alongside first-principles calculations, StABlE Training can be viewed as a general semi-empirical framework applicable across MLFF architectures and systems. This makes it a powerful tool for training stable and accurate MLFFs, particularly in the absence of large reference datasets. Our code is available at https://github.com/ASK-Berkeley/StABlE-Training.

arxiv情報

著者 Sanjeev Raja,Ishan Amin,Fabian Pedregosa,Aditi S. Krishnapriyan
発行日 2025-02-25 18:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.mtrl-sci, cs.LG, physics.chem-ph, physics.comp-ph | Stability-Aware Training of Machine Learning Force Fields with Differentiable Boltzmann Estimators はコメントを受け付けていません

LLM-Based Design Pattern Detection

要約

なじみのないコードベースでの設計パターンインスタンスの検出インスタンスの検出ソフトウェアの品質と保守性を向上させるための挑戦的でありながら不可欠なタスクのままです。
従来の静的分析ツールは、多くの場合、実際のパターンの実装を特徴付ける明示的な注釈の複雑さ、変動、不足に苦しんでいます。
このホワイトペーパーでは、大規模な言語モデルを活用して、多様なコードベース全体でデザインパターンインスタンスを自動的に識別する新しいアプローチを紹介します。
私たちの方法は、パターンインスタンス内でクラスが再生する役割の認識に焦点を当てています。
ソフトウェアの構造と意図に関するより明確な洞察を提供することにより、この研究は、開発者をサポートし、理解を改善し、リファクタリング、メンテナンス、ベストプラクティスの遵守などのタスクを合理化することを目的としています。

要約(オリジナル)

Detecting design pattern instances in unfamiliar codebases remains a challenging yet essential task for improving software quality and maintainability. Traditional static analysis tools often struggle with the complexity, variability, and lack of explicit annotations that characterize real-world pattern implementations. In this paper, we present a novel approach leveraging Large Language Models to automatically identify design pattern instances across diverse codebases. Our method focuses on recognizing the roles classes play within the pattern instances. By providing clearer insights into software structure and intent, this research aims to support developers, improve comprehension, and streamline tasks such as refactoring, maintenance, and adherence to best practices.

arxiv情報

著者 Christian Schindler,Andreas Rausch
発行日 2025-02-25 18:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | LLM-Based Design Pattern Detection はコメントを受け付けていません

Allocating Variance to Maximize Expectation

要約

ガウスランダム変数の家族の最高の期待を最大化するための効率的な近似アルゴリズムを設計します。
特に、$ \ mathrm {opt}:= \ max _ {\ sigma_1、\ cdots、\ sigma_n} \ mathbb {e} \ left [\ sum_ {j = 1}^{m} \ max_ {i \ in s_j
} x_i \ right] $、$ x_i $はガウスです、
$ s_j \ subset [n] $ and $ \ sum_i \ sigma_i^2 = 1 $、次のことが含まれます。
、 – $ m = 1 $の場合、$ \ mathrm {opt} $を計算するための多項式時間近似スキーム(PTAS)、および –
$ o(\ log n)$近似アルゴリズム$ \ mathrm {opt} $ for general $ m> 1 $。
このような期待最大化の問題は、オークション市場のユーティリティの最大化から定量的遺伝学の混合モデルの学習に至るまで、多様なアプリケーションで発生します。

要約(オリジナル)

We design efficient approximation algorithms for maximizing the expectation of the supremum of families of Gaussian random variables. In particular, let $\mathrm{OPT}:=\max_{\sigma_1,\cdots,\sigma_n}\mathbb{E}\left[\sum_{j=1}^{m}\max_{i\in S_j} X_i\right]$, where $X_i$ are Gaussian, $S_j\subset[n]$ and $\sum_i\sigma_i^2=1$, then our theoretical results include: – We characterize the optimal variance allocation — it concentrates on a small subset of variables as $|S_j|$ increases, – A polynomial time approximation scheme (PTAS) for computing $\mathrm{OPT}$ when $m=1$, and – An $O(\log n)$ approximation algorithm for computing $\mathrm{OPT}$ for general $m>1$. Such expectation maximization problems occur in diverse applications, ranging from utility maximization in auctions markets to learning mixture models in quantitative genetics.

arxiv情報

著者 Renato Purita Paes Leme,Cliff Stein,Yifeng Teng,Pratik Worah
発行日 2025-02-25 18:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Allocating Variance to Maximize Expectation はコメントを受け付けていません

Diffusion-HMC: Parameter Inference with Diffusion-model-driven Hamiltonian Monte Carlo

要約

拡散生成モデルは、フィールド全体の多様な画像生成および再構築タスクに優れています。
あまり探索されていない道は、回帰または分類の問題を含む差別的なタスクへの適用です。
現代の宇宙論の基礎は、理論から観察された天体物理フィールドの予測を生成し、これらの予測を使用して観察から物理モデルを制約する能力です。
この作業は、単一の拡散生成モデルを使用して、入力宇宙論的パラメーターを条件とするコールドダークマター密度フィールドの代理モデルまたはエミュレータとして、また、宇宙論的パラメーターを制約する逆の問題を解決するパラメーター推論モデルとして、これらの相互リンクされた目標に対処します。
入力フィールド。
このモデルは、シミュレートされたターゲット分布の統計と一致する概要統計でフィールドをエミュレートすることができます。
次に、ハミルトニアンモンテカルロ法を使用して特定のテスト画像の宇宙パラメーターの後方をサンプリングすることにより、拡散生成モデルの近似尤度を活用して宇宙論の厳しい制約を導き出します。
最後に、このパラメーター推論アプローチは、ベースラインパラメーター推論ネットワークよりも、フィールドへのノイズの小さな摂動に対してより堅牢であることを実証します。

要約(オリジナル)

Diffusion generative models have excelled at diverse image generation and reconstruction tasks across fields. A less explored avenue is their application to discriminative tasks involving regression or classification problems. The cornerstone of modern cosmology is the ability to generate predictions for observed astrophysical fields from theory and constrain physical models from observations using these predictions. This work uses a single diffusion generative model to address these interlinked objectives — as a surrogate model or emulator for cold dark matter density fields conditional on input cosmological parameters, and as a parameter inference model that solves the inverse problem of constraining the cosmological parameters of an input field. The model is able to emulate fields with summary statistics consistent with those of the simulated target distribution. We then leverage the approximate likelihood of the diffusion generative model to derive tight constraints on cosmology by using the Hamiltonian Monte Carlo method to sample the posterior on cosmological parameters for a given test image. Finally, we demonstrate that this parameter inference approach is more robust to small perturbations of noise to the field than baseline parameter inference networks.

arxiv情報

著者 Nayantara Mudur,Carolina Cuesta-Lazaro,Douglas P. Finkbeiner
発行日 2025-02-25 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.CO, cs.LG | Diffusion-HMC: Parameter Inference with Diffusion-model-driven Hamiltonian Monte Carlo はコメントを受け付けていません