FunDiff: Diffusion Models over Function Spaces for Physics-Informed Generative Modeling

要約

生成モデリングの最近の進歩、特に拡散モデルとフローマッチング – は、画像やビデオなどの個別のデータを合成することで顕著な成功を収めています。
ただし、関心のある量は複雑な物理的法則によって支配されている継続的な機能であるため、これらのモデルを物理的なアプリケーションに適応させることは依然として困難です。
ここでは、関数空間で生成されたモデリングのための新しいフレームワークである$ \ textBf {Fundiff} $を紹介します。
Fundiffは、潜在的な拡散プロセスと関数の自動エンコーダーアーキテクチャを組み合わせて、さまざまな離散化で入力関数を処理し、任意の場所で評価可能な連続関数を生成し、物理的なプライアをシームレスに組み込みます。
これらの事前は、建築的制約または物理学に基づいた損失関数を通じて強制され、生成されたサンプルが基本的な物理法則を満たすことを保証します。
我々は、機能空間の密度推定のミニマックス最適性保証を理論的に確立し、拡散ベースの推定器が適切な規則性条件下で最適な収束速度を達成することを示しています。
流体のダイナミクスと固体力学における多様なアプリケーションにわたるファンディフの実際的な有効性を実証します。
経験的な結果は、我々の方法がターゲット分布に高い忠実度を持つ物理的に一貫したサンプルを生成し、ノイズ状と低解像度のデータに堅牢性を示すことを示しています。
コードとデータセットは、https://github.com/sifanexisted/fundiffで公開されています。

要約(オリジナル)

Recent advances in generative modeling — particularly diffusion models and flow matching — have achieved remarkable success in synthesizing discrete data such as images and videos. However, adapting these models to physical applications remains challenging, as the quantities of interest are continuous functions governed by complex physical laws. Here, we introduce $\textbf{FunDiff}$, a novel framework for generative modeling in function spaces. FunDiff combines a latent diffusion process with a function autoencoder architecture to handle input functions with varying discretizations, generate continuous functions evaluable at arbitrary locations, and seamlessly incorporate physical priors. These priors are enforced through architectural constraints or physics-informed loss functions, ensuring that generated samples satisfy fundamental physical laws. We theoretically establish minimax optimality guarantees for density estimation in function spaces, showing that diffusion-based estimators achieve optimal convergence rates under suitable regularity conditions. We demonstrate the practical effectiveness of FunDiff across diverse applications in fluid dynamics and solid mechanics. Empirical results show that our method generates physically consistent samples with high fidelity to the target distribution and exhibits robustness to noisy and low-resolution data. Code and datasets are publicly available at https://github.com/sifanexisted/fundiff.

arxiv情報

著者 Sifan Wang,Zehao Dou,Tong-Rui Liu,Lu Lu
発行日 2025-06-09 16:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph, stat.ML | FunDiff: Diffusion Models over Function Spaces for Physics-Informed Generative Modeling はコメントを受け付けていません

CausalPFN: Amortized Causal Effect Estimation via In-Context Learning

要約

観察データからの因果効果の推定は、さまざまなアプリケーションにわたって基本的です。
ただし、多数の専門的な方法から適切な推定器を選択すると、実質的な手動の努力とドメインの専門知識が必要です。
このワークフローを償却する単一の変圧器である因果関係を提示します。無知性を満たすシミュレートされたデータ生成プロセスの大規模なライブラリでトレーニングされ、新しい観測データセットの因果効果を提供します。
因果関係は、ベイジアンの因果推論からのアイデアを、以前のネットワーク(PFN)の大規模なトレーニングプロトコルと組み合わせて、タスク固有の調整なしに生の観測を因果効果に直接マッピングすることを学びます。
私たちのアプローチは、不均一および平均治療効果推定ベンチマーク(IHDP、Lalonde、ACIC)で優れた平均パフォーマンスを達成します。
さらに、アップリフトモデリングタスクに関する現実世界のポリシー作成の競争力のあるパフォーマンスを示しています。
因果関係は、ベイジアンの原則に基づいて信頼できる意思決定をサポートするための較正された不確実性の推定値を提供します。
このすぐに使用できるモデルは、さらなるトレーニングやチューニングを必要とせず、自動化された因果推論(https://github.com/vdblm/causalpfn)に向けて一歩を踏み出します。

要約(オリジナル)

Causal effect estimation from observational data is fundamental across various applications. However, selecting an appropriate estimator from dozens of specialized methods demands substantial manual effort and domain expertise. We present CausalPFN, a single transformer that amortizes this workflow: trained once on a large library of simulated data-generating processes that satisfy ignorability, it infers causal effects for new observational datasets out-of-the-box. CausalPFN combines ideas from Bayesian causal inference with the large-scale training protocol of prior-fitted networks (PFNs), learning to map raw observations directly to causal effects without any task-specific adjustment. Our approach achieves superior average performance on heterogeneous and average treatment effect estimation benchmarks (IHDP, Lalonde, ACIC). Moreover, it shows competitive performance for real-world policy making on uplift modeling tasks. CausalPFN provides calibrated uncertainty estimates to support reliable decision-making based on Bayesian principles. This ready-to-use model does not require any further training or tuning and takes a step toward automated causal inference (https://github.com/vdblm/CausalPFN).

arxiv情報

著者 Vahid Balazadeh,Hamidreza Kamkari,Valentin Thomas,Benson Li,Junwei Ma,Jesse C. Cresswell,Rahul G. Krishnan
発行日 2025-06-09 16:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | CausalPFN: Amortized Causal Effect Estimation via In-Context Learning はコメントを受け付けていません

W4S4: WaLRUS Meets S4 for Long-Range Sequence Modeling

要約

状態空間モデル(SSM)は、シーケンスモデリングの強力なコンポーネントとして浮上しており、線形再発と畳み込み計算による長距離依存関係の効率的な取り扱いを可能にします。
ただし、それらの有効性は、状態マトリックスの選択と初期化に大きく依存します。
この作業では、Safariフレームワークと既存のセイウチSSMSに基づいて、冗長ウェーブレットフレームから構築された新しいクラスのSSMである新しいバリアントW4S4(S4のセイウチ)を導入します。
セイウチは、安定した対角線化を認め、低ランクの近似を必要とせずに高速カーネル計算をサポートし、理論的に接地された計算効率の両方にします。
セイウチは、単独で、またS4などの深いアーキテクチャに統合された場合、HippoベースのSSMよりも長い視野よりも大幅に優れた情報を保持していることを示しています。
私たちの実験は、遅延再構成タスク、分類ベンチマーク、および長距離シーケンスモデリング全体の一貫した改善を示しており、ウェーブレットベースの状態の動的によって有効な高品質の構造化初期化が既存の代替品よりも大きな利点を提供することを確認します。
セリュースは、次世代の深いSSMベースのモデルのためのスケーラブルで汎用性の高い基盤を提供します。

要約(オリジナル)

State Space Models (SSMs) have emerged as powerful components for sequence modeling, enabling efficient handling of long-range dependencies via linear recurrence and convolutional computation. However, their effectiveness depends heavily on the choice and initialization of the state matrix. In this work, we build on the SaFARi framework and existing WaLRUS SSMs to introduce a new variant, W4S4 (WaLRUS for S4), a new class of SSMs constructed from redundant wavelet frames. WaLRUS admits a stable diagonalization and supports fast kernel computation without requiring low-rank approximations, making it both theoretically grounded and computationally efficient. We show that WaLRUS retains information over long horizons significantly better than HiPPO-based SSMs, both in isolation and when integrated into deep architectures such as S4. Our experiments demonstrate consistent improvements across delay reconstruction tasks, classification benchmarks, and long-range sequence modeling, confirming that high-quality, structured initialization enabled by wavelet-based state dynamic offers substantial advantages over existing alternatives. WaLRUS provides a scalable and versatile foundation for the next generation of deep SSM-based models.

arxiv情報

著者 Hossein Babaei,Mel White,Richard G. Baraniuk
発行日 2025-06-09 16:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS, eess.IV, eess.SP | W4S4: WaLRUS Meets S4 for Long-Range Sequence Modeling はコメントを受け付けていません

A Generative Physics-Informed Reinforcement Learning-Based Approach for Construction of Representative Drive Cycle

要約

正確な運転サイクルの構築は、車両の設計、燃費分析、環境への影響評価に不可欠です。
一時的なダイナミクス、加速、減速、アイドリング、および道路グレードの遷移をキャプチャしながら、モデルの忠実度を確保することにより、代表的な駆動サイクルを構築する生成物理学に基づいた予想されるSARSA-Monte Carlo(PIESMC)アプローチが導入されます。
Monte Carloサンプリングを使用して物理学に基づいた強化学習フレームワークを活用して、PIESMCは計算コストを削減して効率的なサイクル構造を提供します。
2つの実際のデータセットでの実験的評価は、PIESMCが重要な運動学とエネルギーのメトリックを再現し、マイクロトリップベース(MTB)メソッドと比較して累積運動断片的な誤差を最大57.3%減少させることを実証し、マルコフキャインベース(MCB)方法に比べて10.5%減少します。
さらに、従来の技術よりもほぼ数桁高速です。
車両固有の電力分布とウェーブレット変換周波数含有量の分析により、実験的な中心的な傾向と変動性を再現する能力がさらに確認されます。

要約(オリジナル)

Accurate driving cycle construction is crucial for vehicle design, fuel economy analysis, and environmental impact assessments. A generative Physics-Informed Expected SARSA-Monte Carlo (PIESMC) approach that constructs representative driving cycles by capturing transient dynamics, acceleration, deceleration, idling, and road grade transitions while ensuring model fidelity is introduced. Leveraging a physics-informed reinforcement learning framework with Monte Carlo sampling, PIESMC delivers efficient cycle construction with reduced computational cost. Experimental evaluations on two real-world datasets demonstrate that PIESMC replicates key kinematic and energy metrics, achieving up to a 57.3% reduction in cumulative kinematic fragment errors compared to the Micro-trip-based (MTB) method and a 10.5% reduction relative to the Markov-chain-based (MCB) method. Moreover, it is nearly an order of magnitude faster than conventional techniques. Analyses of vehicle-specific power distributions and wavelet-transformed frequency content further confirm its ability to reproduce experimental central tendencies and variability.

arxiv情報

著者 Amirreza Yasami,Mohammadali Tofigh,Mahdi Shahbakhti,Charles Robert Koch
発行日 2025-06-09 16:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | A Generative Physics-Informed Reinforcement Learning-Based Approach for Construction of Representative Drive Cycle はコメントを受け付けていません

Missing Data Imputation by Reducing Mutual Information with Rectified Flows

要約

このペーパーでは、データとそれに対応する欠落マスク間の相互情報を順次削減する欠落データ代入のための新しい反復方法を紹介します。
Ganベースのアプローチに触発され、発電機を訓練して欠落パターンの予測可能性を低下させると、この方法は相互情報の削減を明示的にターゲットにしています。
具体的には、私たちのアルゴリズムは、帰属データと欠落マスクの共同分布と以前のイテレーションからの限界の積との間のKLの発散を繰り返し最小限に抑えます。
このフレームワークの下での最適な代入は、速度フィールドが修正フロートレーニングの目的を最小限に抑えるODEの解決に対応していることを示します。
さらに、いくつかの既存の帰属手法は、相互情報削減フレームワークのおおよその特別なケースとして解釈できることを示しています。
合成および実世界のデータセットに関する包括的な実験は、提案されたアプローチの有効性を検証し、優れた代入パフォーマンスを実証します。

要約(オリジナル)

This paper introduces a novel iterative method for missing data imputation that sequentially reduces the mutual information between data and their corresponding missing mask. Inspired by GAN-based approaches, which train generators to decrease the predictability of missingness patterns, our method explicitly targets the reduction of mutual information. Specifically, our algorithm iteratively minimizes the KL divergence between the joint distribution of the imputed data and missing mask, and the product of their marginals from the previous iteration. We show that the optimal imputation under this framework corresponds to solving an ODE, whose velocity field minimizes a rectified flow training objective. We further illustrate that some existing imputation techniques can be interpreted as approximate special cases of our mutual-information-reducing framework. Comprehensive experiments on synthetic and real-world datasets validate the efficacy of our proposed approach, demonstrating superior imputation performance.

arxiv情報

著者 Jiahao Yu,Qizhen Ying,Leyang Wang,Ziyue Jiang,Song Liu
発行日 2025-06-09 16:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Missing Data Imputation by Reducing Mutual Information with Rectified Flows はコメントを受け付けていません

Ensemble-Based Survival Models with the Self-Attended Beran Estimator Predictions

要約

生存分析は、失敗や死などの関心のある出来事までの時間を予測しますが、一部のイベントが観察されないままである検閲データによる課題に直面しています。
ランダムサバイバルフォレストやグラジエントブーストなどのアンサンブルベースのモデルは広く使用されていますが、ブートストラップサンプルの変動により不安定な予測を生成できます。
これに対処するために、ベラン推定器と自己触媒メカニズムを組み合わせた新しいアンサンブルモデルであるサバイバルベラン推定器自己attendators)を提案します。
従来の方法とは異なり、Survsaは予測された生存機能に自己関節を適用し、隣接する生存機能との類似性に基づいて各生存機能を調整することにより、ノイズを滑らかにします。
また、Huberの汚染モデルを使用して注意の重みを定義し、2次または線形の最適化問題に対するトレーニングを簡素化する特別なケースを探ります。
数値実験は、サバッサが最先端のモデルよりも優れていることを示しています。
Survbesaの実装は公開されています。

要約(オリジナル)

Survival analysis predicts the time until an event of interest, such as failure or death, but faces challenges due to censored data, where some events remain unobserved. Ensemble-based models, like random survival forests and gradient boosting, are widely used but can produce unstable predictions due to variations in bootstrap samples. To address this, we propose SurvBESA (Survival Beran Estimators Self-Attended), a novel ensemble model that combines Beran estimators with a self-attention mechanism. Unlike traditional methods, SurvBESA applies self-attention to predicted survival functions, smoothing out noise by adjusting each survival function based on its similarity to neighboring survival functions. We also explore a special case using Huber’s contamination model to define attention weights, simplifying training to a quadratic or linear optimization problem. Numerical experiments show that SurvBESA outperforms state-of-the-art models. The implementation of SurvBESA is publicly available.

arxiv情報

著者 Lev V. Utkin,Semen P. Khomets,Vlada A. Efremenko,Andrei V. Konstantinov,Natalya M. Verbova
発行日 2025-06-09 16:53:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Ensemble-Based Survival Models with the Self-Attended Beran Estimator Predictions はコメントを受け付けていません

Reliably detecting model failures in deployment without labels

要約

データの分布は時間の経過とともに変化します。
動的環境で動作するモデルは、再訓練する必要があります。
しかし、レーベルへのアクセスなしでいつ再訓練するかを知ることは、一部のものからのオープンな課題ですが、すべてのシフトがモデルのパフォーマンスを低下させるわけではありません。
この論文は、展開後の劣化(PDD)モニタリングの問題を正式にして対処しています。
予測モデルの意見の相違に基づいた実用的で効率的な監視アルゴリズムであるD3Mを提案し、非劣化シフトの下で低い誤検出率を達成し、悪化したシフトの下での高い真の正速度のサンプルの複雑さの境界を提供します。
標準ベンチマークと実世界の大規模な内科データセットの両方での経験的結果は、フレームワークの有効性を示し、ハイステークス機械学習パイプラインのアラートメカニズムとしての実行可能性を強調しています。

要約(オリジナル)

The distribution of data changes over time; models operating operating in dynamic environments need retraining. But knowing when to retrain, without access to labels, is an open challenge since some, but not all shifts degrade model performance. This paper formalizes and addresses the problem of post-deployment deterioration (PDD) monitoring. We propose D3M, a practical and efficient monitoring algorithm based on the disagreement of predictive models, achieving low false positive rates under non-deteriorating shifts and provides sample complexity bounds for high true positive rates under deteriorating shifts. Empirical results on both standard benchmark and a real-world large-scale internal medicine dataset demonstrate the effectiveness of the framework and highlight its viability as an alert mechanism for high-stakes machine learning pipelines.

arxiv情報

著者 Viet Nguyen,Changjian Shui,Vijay Giri,Siddarth Arya,Amol Verma,Fahad Razak,Rahul G. Krishnan
発行日 2025-06-09 16:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Reliably detecting model failures in deployment without labels はコメントを受け付けていません

TokenBreak: Bypassing Text Classification Models Through Token Manipulation

要約

自然言語処理(NLP)モデルは、分類や生成などのテキスト関連のタスクに使用されます。
これらのタスクを完了するために、入力データは最初に人間の読み取り可能なテキストからモデルが理解できる形式にトークン化され、推論を行い、コンテキストを理解できるようにします。
テキスト分類モデルは、大規模な言語モデル(LLMS)に対する迅速なインジェクション攻撃、SPAMメールなどのサイバーセキュリティリスクなどの脅威などの脅威を防ぐために実装できます。
この論文では、Tokenbreak:Tokenbreak:Token Break:それらが使用するトークン化戦略を活用することでこれらの保護モデルをバイパスできる新しい攻撃を紹介します。
この攻撃手法は、特定のモデルが間違った分類を与えるように入力テキストを操作します。
重要なことに、最終ターゲット(LLMまたは電子メール受信者)は、操作されたテキストを理解して応答することができ、したがって、保護モデルが導入されたまさに攻撃に対して脆弱であることです。
トークン剤はモデルアーキテクチャに結び付けられています。つまり、モデルが家族に基づいて攻撃に対して脆弱であるかどうかを予測することが可能です。
また、防御モデルを再訓練することなく実装できる追加の保護層として防御戦略を提示します。

要約(オリジナル)

Natural Language Processing (NLP) models are used for text-related tasks such as classification and generation. To complete these tasks, input data is first tokenized from human-readable text into a format the model can understand, enabling it to make inferences and understand context. Text classification models can be implemented to guard against threats such as prompt injection attacks against Large Language Models (LLMs), toxic input and cybersecurity risks such as spam emails. In this paper, we introduce TokenBreak: a novel attack that can bypass these protection models by taking advantage of the tokenization strategy they use. This attack technique manipulates input text in such a way that certain models give an incorrect classification. Importantly, the end target (LLM or email recipient) can still understand and respond to the manipulated text and therefore be vulnerable to the very attack the protection model was put in place to prevent. The tokenizer is tied to model architecture, meaning it is possible to predict whether or not a model is vulnerable to attack based on family. We also present a defensive strategy as an added layer of protection that can be implemented without having to retrain the defensive model.

arxiv情報

著者 Kasimir Schulz,Kenneth Yeung,Kieran Evans
発行日 2025-06-09 17:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | TokenBreak: Bypassing Text Classification Models Through Token Manipulation はコメントを受け付けていません

Cost-Optimal Active AI Model Evaluation

要約

生成AIシステムの開発ライフサイクルには、継続的な評価、データ収集、および注釈が必要です。これは、リソースと時間の両方で費用がかかります。
実際には、迅速な反復により、実質的なバイアスの可能性があるにもかかわらず、低コストのために合成注釈データに依存する必要があることがよくあります。
このホワイトペーパーでは、生成されたコンテンツの品質を自動的に評価するように設計されたモデルベースの自動車など、安価ではあるがしばしば不正確で弱い評価者の使用と積極的にバランスをとるための新しいコスト認識方法を開発します。
より具体的には、私たちのアプローチの目標は、ターゲットの「強い」格付けの平均の公平な推定値を生成することです。
アクティブおよび予測駆動の統計的推論における最近の作業に基づいて、統計効率を最大化するために、弱い評価者と強い評価者の間に特定の注釈予算を割り当てるためのコスト最適なポリシーのファミリーを導き出します。
合成および実世界のデータを使用して、これらのポリシーが以前の方法よりも改善をもたらす条件を経験的に特徴付けます。
特に、例の難易度に高いばらつきがあるタスクでは、我々のポリシーは、標準的な評価方法よりもはるかに低い総注釈予算で同じ推定精度を達成できることがわかります。

要約(オリジナル)

The development lifecycle of generative AI systems requires continual evaluation, data acquisition, and annotation, which is costly in both resources and time. In practice, rapid iteration often makes it necessary to rely on synthetic annotation data because of the low cost, despite the potential for substantial bias. In this paper, we develop novel, cost-aware methods for actively balancing the use of a cheap, but often inaccurate, weak rater — such as a model-based autorater that is designed to automatically assess the quality of generated content — with a more expensive, but also more accurate, strong rater alternative such as a human. More specifically, the goal of our approach is to produce a low variance, unbiased estimate of the mean of the target ‘strong’ rating, subject to some total annotation budget. Building on recent work in active and prediction-powered statistical inference, we derive a family of cost-optimal policies for allocating a given annotation budget between weak and strong raters so as to maximize statistical efficiency. Using synthetic and real-world data, we empirically characterize the conditions under which these policies yield improvements over prior methods. We find that, especially in tasks where there is high variability in the difficulty of examples, our policies can achieve the same estimation precision at a far lower total annotation budget than standard evaluation methods.

arxiv情報

著者 Anastasios N. Angelopoulos,Jacob Eisenstein,Jonathan Berant,Alekh Agarwal,Adam Fisch
発行日 2025-06-09 17:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Cost-Optimal Active AI Model Evaluation はコメントを受け付けていません

Discrete and Continuous Difference of Submodular Minimization

要約

連続または離散ドメインで定義されたサブモジュラー関数は、多数のアプリケーションで発生します。
両方のドメインにわたって、2つのサブモジュラー(DS)関数の差の最小化を研究し、機能に制限された以前の作業を拡張します。
個別のドメイン上のすべての機能と連続ドメイン上のすべてのスムーズな関数がDSであることを示します。
離散ドメインの場合、DS最小化は、設定された関数の場合のように、2つの凸(DC)関数の差を最小化することに相当することがわかります。
DCアルゴリズム(DCA)の新しいバリアントを提案し、結果のDCプログラムに適用し、SET機能ケースのように同等の理論的保証を取得します。
アルゴリズムは、離散化により連続ドメインに適用できます。
実験は、我々の方法が整数圧縮センシングと整数の最小二乗のベースラインよりも優れていることを示しています。

要約(オリジナル)

Submodular functions, defined on continuous or discrete domains, arise in numerous applications. We study the minimization of the difference of two submodular (DS) functions, over both domains, extending prior work restricted to set functions. We show that all functions on discrete domains and all smooth functions on continuous domains are DS. For discrete domains, we observe that DS minimization is equivalent to minimizing the difference of two convex (DC) functions, as in the set function case. We propose a novel variant of the DC Algorithm (DCA) and apply it to the resulting DC Program, obtaining comparable theoretical guarantees as in the set function case. The algorithm can be applied to continuous domains via discretization. Experiments demonstrate that our method outperforms baselines in integer compressive sensing and integer least squares.

arxiv情報

著者 George Orfanides,Tim Hoheisel,Marwa El Halabi
発行日 2025-06-09 17:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.OC | Discrete and Continuous Difference of Submodular Minimization はコメントを受け付けていません