Learning a Neural Solver for Parametric PDE to Enhance Physics-Informed Methods

要約

物理情報に基づいた深層学習は、偏微分方程式 (PDE) を解く複雑さのため、最適化の課題に直面することがよくあります。これには、大きな解空間の探索が含まれ、多数の反復が必要となり、トレーニングが不安定になる可能性があります。
これらの課題は、特に損失関数の微分項によって引き起こされる最適化問題の悪条件から発生します。
これらの問題に対処するために、ソルバーを学習すること、つまり、データに基づいてトレーニングされた物理学に基づいた反復アルゴリズムを使用して偏微分方程式を解くことを提案します。
私たちのメソッドは、各 PDE インスタンスに自動的に適応する勾配降下アルゴリズムを調整することを学習し、最適化プロセスを大幅に加速して安定させ、物理認識モデルのより高速な収束を可能にします。
さらに、従来の物理学に基づいた方法は単一の偏微分方程式インスタンスを解決しますが、私たちのアプローチはパラメトリック偏微分方程式に対処します。
具体的には、私たちの方法は物理的損失勾配を PDE パラメーターと統合して、係数、初期条件、または境界条件を含む PDE パラメーターの分布を解決します。
複数のデータセットに対する実証実験を通じて、トレーニングとテスト時の最適化パフォーマンスを比較することで、この方法の有効性を実証します。

要約(オリジナル)

Physics-informed deep learning often faces optimization challenges due to the complexity of solving partial differential equations (PDEs), which involve exploring large solution spaces, require numerous iterations, and can lead to unstable training. These challenges arise particularly from the ill-conditioning of the optimization problem, caused by the differential terms in the loss function. To address these issues, we propose learning a solver, i.e., solving PDEs using a physics-informed iterative algorithm trained on data. Our method learns to condition a gradient descent algorithm that automatically adapts to each PDE instance, significantly accelerating and stabilizing the optimization process and enabling faster convergence of physics-aware models. Furthermore, while traditional physics-informed methods solve for a single PDE instance, our approach addresses parametric PDEs. Specifically, our method integrates the physical loss gradient with the PDE parameters to solve over a distribution of PDE parameters, including coefficients, initial conditions, or boundary conditions. We demonstrate the effectiveness of our method through empirical experiments on multiple datasets, comparing training and test-time optimization performance.

arxiv情報

著者 Lise Le Boudec,Emmanuel de Bezenac,Louis Serrano,Ramon Daniel Regueiro-Espino,Yuan Yin,Patrick Gallinari
発行日 2024-10-11 16:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Learning a Neural Solver for Parametric PDE to Enhance Physics-Informed Methods はコメントを受け付けていません

Lifted Coefficient of Determination: Fast model-free prediction intervals and likelihood-free model comparison

要約

我々は $\textit{リフト線形モデル}$ を提案し、予測と観測の間の相関が増加するにつれて狭くなるモデルフリー予測区間を導出します。
これらの間隔は、回帰、分類、カウントなどの予測ベースの設定における任意の損失関数のモデル比較基準である $\textit{リフト決定係数}$ の動機付けとなります。
予測区間をより一般的な誤差分布に拡張し、回帰のための高速なモデルフリーの外れ値検出アルゴリズムを提案します。
最後に、数値実験を通じてフレームワークを説明します。

要約(オリジナル)

We propose the $\textit{lifted linear model}$, and derive model-free prediction intervals that become tighter as the correlation between predictions and observations increases. These intervals motivate the $\textit{Lifted Coefficient of Determination}$, a model comparison criterion for arbitrary loss functions in prediction-based settings, e.g., regression, classification or counts. We extend the prediction intervals to more general error distributions, and propose a fast model-free outlier detection algorithm for regression. Finally, we illustrate the framework via numerical experiments.

arxiv情報

著者 Daniel Salnikov,Kevin Michalewicz,Dan Leonte
発行日 2024-10-11 16:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62Gxx, cs.LG, G.3, stat.ML | Lifted Coefficient of Determination: Fast model-free prediction intervals and likelihood-free model comparison はコメントを受け付けていません

LibMOON: A Gradient-based MultiObjective OptimizatioN Library in PyTorch

要約

多目的最適化問題 (MOP) は、機械学習で一般的であり、マルチタスク学習、公平性またはロバストネス制約の下での学習などに応用されています。MOP は、複数の目的関数をスカラー目標に縮小するのではなく、いわゆるパレートに対して最適化することを目的としています。
最適性またはパレート集合学習。これには、数千または数百万のパラメーターを持つモデルに対して複数の目的関数を同時に最適化することが含まれます。
MOP 用の既存のベンチマーク ライブラリは主に進化的アルゴリズムに焦点を当てていますが、そのほとんどはゼロ次/メタヒューリスティック手法であり、目的からの高次情報を効果的に利用しておらず、数千/数百万のパラメータを持つ大規模モデルに拡張することができません。
上記のギャップを考慮して、この文書では、最先端の勾配ベースの手法をサポートし、公正なベンチマークを提供し、コミュニティ向けにオープンソース化された初の多目的最適化ライブラリである LibMOON を紹介します。

要約(オリジナル)

Multiobjective optimization problems (MOPs) are prevalent in machine learning, with applications in multi-task learning, learning under fairness or robustness constraints, etc. Instead of reducing multiple objective functions into a scalar objective, MOPs aim to optimize for the so-called Pareto optimality or Pareto set learning, which involves optimizing more than one objective function simultaneously, over models with thousands / millions of parameters. Existing benchmark libraries for MOPs mainly focus on evolutionary algorithms, most of which are zeroth-order / meta-heuristic methods that do not effectively utilize higher-order information from objectives and cannot scale to large-scale models with thousands / millions of parameters. In light of the above gap, this paper introduces LibMOON, the first multiobjective optimization library that supports state-of-the-art gradient-based methods, provides a fair benchmark, and is open-sourced for the community.

arxiv情報

著者 Xiaoyuan Zhang,Liang Zhao,Yingying Yu,Xi Lin,Yifan Chen,Han Zhao,Qingfu Zhang
発行日 2024-10-11 16:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MS, math.OC | LibMOON: A Gradient-based MultiObjective OptimizatioN Library in PyTorch はコメントを受け付けていません

Online-to-PAC generalization bounds under graph-mixing dependencies

要約

統計学習における従来の一般化の結果には、個別に抽出されたサンプルから作成されたトレーニング データ セットが必要です。
この独立性の仮定を緩和するための最近の取り組みのほとんどは、純粋に時間的な (混合) 依存関係、または隣接しない頂点が独立した確率変数に対応するグラフ依存関係を考慮しています。
どちらのアプローチにも独自の制限があり、前者には時間的な順序構造が必要ですが、後者には相互依存関係の強さを定量化する方法がありません。
この研究では、グラフの距離に応じて依存関係が減衰するフレームワークを提案することで、これら 2 つの作業ラインを橋渡しします。
集中結果を導き出し、グラフ構造を組み込んだオンライン学習フレームワークを導入することにより、オンラインから PAC へのフレームワークを活用して汎化限界を導き出します。
結果として得られる高確率の一般化保証は、混合率とグラフの彩色数の両方に依存します。

要約(オリジナル)

Traditional generalization results in statistical learning require a training data set made of independently drawn examples. Most of the recent efforts to relax this independence assumption have considered either purely temporal (mixing) dependencies, or graph-dependencies, where non-adjacent vertices correspond to independent random variables. Both approaches have their own limitations, the former requiring a temporal ordered structure, and the latter lacking a way to quantify the strength of inter-dependencies. In this work, we bridge these two lines of work by proposing a framework where dependencies decay with graph distance. We derive generalization bounds leveraging the online-to-PAC framework, by deriving a concentration result and introducing an online learning framework incorporating the graph structure. The resulting high-probability generalization guarantees depend on both the mixing rate and the graph’s chromatic number.

arxiv情報

著者 Baptiste Abélès,Eugenio Clerico,Gergely Neu
発行日 2024-10-11 16:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Online-to-PAC generalization bounds under graph-mixing dependencies はコメントを受け付けていません

Hedging and Approximate Truthfulness in Traditional Forecasting Competitions

要約

予想コンテストでは、従来のメカニズムにより、各イベントの結果に対して各出場者の予想がスコアリングされ、合計スコアが最も高い出場者が優勝します。
この伝統的な仕組みがインセンティブの問題に悩まされる可能性があることはよく知られていますが、イベントの数が増えても出場者は依然としてほぼ真実を語るというのが民間伝承です。
しかし、これまでのところ、文献にはこの伝統的なメカニズムの正式な分析が欠けています。
この論文では、そのような分析を初めて示します。
まず、「長期的な真実性」という民間伝承が誤りであることを証明します。たとえ任意の数の出来事であっても、最も優れた予測者は、勝つ可能性を高めるためにより穏健な信念を報告し、ヘッジするインセンティブを持つ可能性があります。
しかし、良い面としては、対戦相手の相対的な資質とイベントの結果について十分な不確実性がある場合、2 人の出場者はほぼ真実であることがわかります。これは実際に起こり得るケースです。

要約(オリジナル)

In forecasting competitions, the traditional mechanism scores the predictions of each contestant against the outcome of each event, and the contestant with the highest total score wins. While it is well-known that this traditional mechanism can suffer from incentive issues, it is folklore that contestants will still be roughly truthful as the number of events grows. Yet thus far the literature lacks a formal analysis of this traditional mechanism. This paper gives the first such analysis. We first demonstrate that the ”long-run truthfulness” folklore is false: even for arbitrary numbers of events, the best forecaster can have an incentive to hedge, reporting more moderate beliefs to increase their win probability. On the positive side, however, we show that two contestants will be approximately truthful when they have sufficient uncertainty over the relative quality of their opponent and the outcomes of the events, a case which may arise in practice.

arxiv情報

著者 Mary Monroe,Anish Thilagar,Melody Hsu,Rafael Frongillo
発行日 2024-10-11 16:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG | Hedging and Approximate Truthfulness in Traditional Forecasting Competitions はコメントを受け付けていません

Optimal Downsampling for Imbalanced Classification with Generalized Linear Models

要約

ダウンサンプリングまたはアンダーサンプリングは、大規模で非常に不均衡な分類モデルのコンテキストで利用される手法です。
一般化線形モデル (GLM) を使用して、不均衡な分類に最適なダウンサンプリングを研究します。
我々は、擬似最尤推定量を提案し、サンプルサイズがますます大きくなるにつれて母集団の不均衡がますます大きくなるという状況において、その漸近正規性を研究します。
導入した推定器については理論上の保証を行っております。
さらに、統計的精度と計算効率のバランスをとる基準を使用して、最適なダウンサンプリング レートを計算します。
合成データと経験的データの両方に対して実施された数値実験は、理論的結果をさらに検証し、導入された推定器が一般に利用可能な代替推定器よりも優れていることを実証しました。

要約(オリジナル)

Downsampling or under-sampling is a technique that is utilized in the context of large and highly imbalanced classification models. We study optimal downsampling for imbalanced classification using generalized linear models (GLMs). We propose a pseudo maximum likelihood estimator and study its asymptotic normality in the context of increasingly imbalanced populations relative to an increasingly large sample size. We provide theoretical guarantees for the introduced estimator. Additionally, we compute the optimal downsampling rate using a criterion that balances statistical accuracy and computational efficiency. Our numerical experiments, conducted on both synthetic and empirical data, further validate our theoretical results, and demonstrate that the introduced estimator outperforms commonly available alternatives.

arxiv情報

著者 Yan Chen,Jose Blanchet,Krzysztof Dembczynski,Laura Fee Nern,Aaron Flores
発行日 2024-10-11 17:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Optimal Downsampling for Imbalanced Classification with Generalized Linear Models はコメントを受け付けていません

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

要約

さまざまなドメインから事前に収集されたデータの再利用は、ターゲット ドメインにはデータが不十分だが、他の関連ドメインには比較的豊富なデータがある意思決定タスクにとって魅力的なソリューションです。
既存のクロスドメインポリシー転送方法は主に、ドメイン/タスク固有の識別子、表現、またはポリシーの学習など、ポリシー学習を促進するためにドメインの対応または修正を学習することを目的としています。
この設計哲学では、多くの場合、柔軟性に欠ける重いモデル アーキテクチャまたはタスク/ドメイン固有のモデリングが発生します。
この現実は私たちに疑問を抱かせます。複雑なダウンストリームのクロスドメイン ポリシー転送モデルに依存するのではなく、データ レベルで普遍的にドメイン ギャップを直接埋めることができるだろうか?
この研究では、クロスドメイン軌道適応のために特別に設計された拡散モデルを採用するクロスドメイン軌道編集 (xTED) フレームワークを提案します。
私たちが提案するモデル アーキテクチャは、状態、アクション、報酬の間の複雑な依存関係と、ターゲット データ内のダイナミクス パターンを効果的に捕捉します。
事前にトレーニングされた拡散を事前として利用することにより、元の意味情報を保持しながら、ソース ドメインの軌跡をターゲット ドメインのプロパティと一致するように変換できます。
このプロセスは、根底にあるドメイン ギャップを暗黙的に修正し、ソース データの状態の現実性とダイナミクスの信頼性を高め、さまざまな下流のポリシー学習方法との柔軟な組み込みを可能にします。
そのシンプルさにも関わらず、xTED は広範なシミュレーションや実際のロボット実験で優れたパフォーマンスを実証します。

要約(オリジナル)

Reusing pre-collected data from different domains is an appealing solution for decision-making tasks that have insufficient data in the target domain but are relatively abundant in other related domains. Existing cross-domain policy transfer methods mostly aim at learning domain correspondences or corrections to facilitate policy learning, such as learning domain/task-specific discriminators, representations, or policies. This design philosophy often results in heavy model architectures or task/domain-specific modeling, lacking flexibility. This reality makes us wonder: can we directly bridge the domain gaps universally at the data level, instead of relying on complex downstream cross-domain policy transfer models? In this study, we propose the Cross-Domain Trajectory EDiting (xTED) framework that employs a specially designed diffusion model for cross-domain trajectory adaptation. Our proposed model architecture effectively captures the intricate dependencies among states, actions, and rewards, as well as the dynamics patterns within target data. By utilizing the pre-trained diffusion as a prior, source domain trajectories can be transformed to match with target domain properties while preserving original semantic information. This process implicitly corrects underlying domain gaps, enhancing state realism and dynamics reliability in the source data, and allowing flexible incorporation with various downstream policy learning methods. Despite its simplicity, xTED demonstrates superior performance in extensive simulation and real-robot experiments.

arxiv情報

著者 Haoyi Niu,Qimao Chen,Tenglong Liu,Jianxiong Li,Guyue Zhou,Yi Zhang,Jianming Hu,Xianyuan Zhan
発行日 2024-10-11 17:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing はコメントを受け付けていません

Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra

要約

ニューラル スケーリング則は、ディープ ニューラル ネットワークのパフォーマンスがトレーニング データ サイズ、モデルの複雑さ、トレーニング時間などの重要な要素に応じてどのようにスケールされるかを記述し、多くの場合、数桁にわたるべき乗則の動作に従います。
経験的な観察にもかかわらず、これらのスケーリング則の理論的理解は依然として限られています。
この研究では、統計力学の手法を使用して、学生と教師の両方が 2 層ニューラル ネットワークである学生と教師のフレームワーク内でワンパスの確率的勾配降下法を分析します。
私たちの研究は主に、汎化誤差と、べき乗則スペクトルを示すデータ共分散行列に応じたその動作に焦点を当てています。
線形活性化関数の場合、さまざまな学習レジームを調査し、べき乗則スケーリングが現れる条件を特定して、汎化誤差の分析式を導き出します。
さらに、特徴学習領域の非線形活性化関数まで分析を拡張し、データ共分散行列のべき乗則スペクトルが学習ダイナミクスにどのような影響を与えるかを調査します。
重要なのは、対称プラトーの長さがデータ共分散行列の個別の固有値の数と隠れ単位の数に依存することがわかり、さまざまな構成の下でこれらのプラトーがどのように動作するかを示しています。
さらに、我々の結果は、データ共分散行列がべき乗則スペクトルを持つ場合の特殊化フェーズにおける指数関数的収束からべき乗則収束への移行を明らかにしています。
この研究は、ニューラル スケーリングの法則の理論的理解に貢献し、複雑なデータ構造を含む実際のシナリオで学習パフォーマンスを最適化するための洞察を提供します。

要約(オリジナル)

Neural scaling laws describe how the performance of deep neural networks scales with key factors such as training data size, model complexity, and training time, often following power-law behaviors over multiple orders of magnitude. Despite their empirical observation, the theoretical understanding of these scaling laws remains limited. In this work, we employ techniques from statistical mechanics to analyze one-pass stochastic gradient descent within a student-teacher framework, where both the student and teacher are two-layer neural networks. Our study primarily focuses on the generalization error and its behavior in response to data covariance matrices that exhibit power-law spectra. For linear activation functions, we derive analytical expressions for the generalization error, exploring different learning regimes and identifying conditions under which power-law scaling emerges. Additionally, we extend our analysis to non-linear activation functions in the feature learning regime, investigating how power-law spectra in the data covariance matrix impact learning dynamics. Importantly, we find that the length of the symmetric plateau depends on the number of distinct eigenvalues of the data covariance matrix and the number of hidden units, demonstrating how these plateaus behave under various configurations. In addition, our results reveal a transition from exponential to power-law convergence in the specialized phase when the data covariance matrix possesses a power-law spectrum. This work contributes to the theoretical understanding of neural scaling laws and provides insights into optimizing learning performance in practical scenarios involving complex data structures.

arxiv情報

著者 Roman Worschech,Bernd Rosenow
発行日 2024-10-11 17:21:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra はコメントを受け付けていません

Variance reduction combining pre-experiment and in-experiment data

要約

オンライン制御実験 (A/B テスト) は、多くの企業にとってデータ主導の意思決定に不可欠です。
これらの実験の感度を高めるには、特にサンプル サイズが固定されている場合、平均治療効果 (ATE) の推定量の分散を減らすことが重要です。
CUPED や CUPAC などの既存の手法は、分散を減らすために実験前データを使用しますが、その有効性は実験前データと結果の相関関係に依存します。
対照的に、実験中のデータは結果とより強い相関があることが多く、したがってより有益です。
この論文では、実験前と実験中のデータの両方を組み合わせて、バイアスや追加の計算の複雑さを導入することなく、CUPED や CUPAC よりも大きな分散削減を達成する新しい方法を紹介します。
また、漸近理論を確立し、手法に一貫した分散推定量を提供します。
この方法を Etsy での複数のオンライン実験に適用すると、実験中の共変量をわずかに含めるだけで、CUPAC よりも大幅な分散の減少に達しました。
これらの結果は、実験の感度を大幅に向上させ、意思決定を迅速化するための私たちのアプローチの可能性を強調しています。

要約(オリジナル)

Online controlled experiments (A/B testing) are essential in data-driven decision-making for many companies. Increasing the sensitivity of these experiments, particularly with a fixed sample size, relies on reducing the variance of the estimator for the average treatment effect (ATE). Existing methods like CUPED and CUPAC use pre-experiment data to reduce variance, but their effectiveness depends on the correlation between the pre-experiment data and the outcome. In contrast, in-experiment data is often more strongly correlated with the outcome and thus more informative. In this paper, we introduce a novel method that combines both pre-experiment and in-experiment data to achieve greater variance reduction than CUPED and CUPAC, without introducing bias or additional computation complexity. We also establish asymptotic theory and provide consistent variance estimators for our method. Applying this method to multiple online experiments at Etsy, we reach substantial variance reduction over CUPAC with the inclusion of only a few in-experiment covariates. These results highlight the potential of our approach to significantly improve experiment sensitivity and accelerate decision-making.

arxiv情報

著者 Zhexiao Lin,Pablo Crespo
発行日 2024-10-11 17:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.AP, stat.ME | Variance reduction combining pre-experiment and in-experiment data はコメントを受け付けていません

Linear Convergence of Diffusion Models Under the Manifold Hypothesis

要約

スコアマッチング生成モデルは、複雑な高次元データ分布からのサンプリングに成功していることが証明されています。
多くの応用では、この分布は $D$ 次元空間に埋め込まれたはるかに低い $d$ 次元多様体に集中していると考えられています。
これは多様体仮説として知られています。
現在最もよく知られている収束保証は、$D$ の線形または $d$ の多項式 (超線形) です。
後者は、後方 SDE の新しい統合スキームを利用します。
我々は両方の長所を生かし、拡散モデルがカルバック・ライブラー~(KL)発散に収束するために必要なステップ数が固有次元 $d$ において線形(対数項まで)であることを示します。
さらに、この線形依存性が鋭いことを示します。

要約(オリジナル)

Score-matching generative models have proven successful at sampling from complex high-dimensional data distributions. In many applications, this distribution is believed to concentrate on a much lower $d$-dimensional manifold embedded into $D$-dimensional space; this is known as the manifold hypothesis. The current best-known convergence guarantees are either linear in $D$ or polynomial (superlinear) in $d$. The latter exploits a novel integration scheme for the backward SDE. We take the best of both worlds and show that the number of steps diffusion models require in order to converge in Kullback-Leibler~(KL) divergence is linear (up to logarithmic terms) in the intrinsic dimension $d$. Moreover, we show that this linear dependency is sharp.

arxiv情報

著者 Peter Potaptchik,Iskander Azangulov,George Deligiannidis
発行日 2024-10-11 17:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Linear Convergence of Diffusion Models Under the Manifold Hypothesis はコメントを受け付けていません