Sparse Activations as Conformal Predictors

要約

コンフォーマル予測は、ポイント予測をセットに置き換える不確実性の定量化のための分布フリーフレームワークであり、限界カバレッジ保証を提供します(つまり、予測セットに、予想される確率で真のラベルが含まれるようにします)。
この論文では、sparsemaxや$ \ gamma $ -entmax($ \ gamma> 1 $を含む)など、コンフォーマル予測とスパースソフトマックスのような変換の間の新しいつながりを明らかにします。

広く使用されている温度スケーリング法に対応するキャリブレーションプロセスを作成する分類のために、新しい不適合スコアを導入します。
テスト時に、較正された温度でこれらのスパース変換を適用すると、サポートセット(つまり、非ゼロ確率のあるラベルのセット)につながり、コンフォーマル予測のカバレッジ保証を自動的に継承します。
コンピュータービジョンとテキスト分類ベンチマークに関する実験を通じて、提案された方法は、SoftMaxに基づく標準的な不適合スコアと比較して、カバレッジ、効率、および適応性の観点から競争力のある結果を達成することを実証します。

要約(オリジナル)

Conformal prediction is a distribution-free framework for uncertainty quantification that replaces point predictions with sets, offering marginal coverage guarantees (i.e., ensuring that the prediction sets contain the true label with a specified probability, in expectation). In this paper, we uncover a novel connection between conformal prediction and sparse softmax-like transformations, such as sparsemax and $\gamma$-entmax (with $\gamma > 1$), which may assign nonzero probability only to a subset of labels. We introduce new non-conformity scores for classification that make the calibration process correspond to the widely used temperature scaling method. At test time, applying these sparse transformations with the calibrated temperature leads to a support set (i.e., the set of labels with nonzero probability) that automatically inherits the coverage guarantees of conformal prediction. Through experiments on computer vision and text classification benchmarks, we demonstrate that the proposed method achieves competitive results in terms of coverage, efficiency, and adaptiveness compared to standard non-conformity scores based on softmax.

arxiv情報

著者 Margarida M. Campos,João Calém,Sophia Sklaviadis,Mário A. T. Figueiredo,André F. T. Martins
発行日 2025-02-20 17:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Sparse Activations as Conformal Predictors はコメントを受け付けていません

Towards counterfactual fairness through auxiliary variables

要約

特に人種、性別、年齢などの敏感な属性が考慮されている場合、機械学習モデルの公平性と予測精度のバランスをとるという課題は、近年実質的な研究を動機付けています。
反事実的な公平性により、予測は、社会的偏見に対処する上で重要な概念である敏感な属性の反事実的な変動を介して一貫性を保つことが保証されます。
ただし、既存の反事実的な公平性アプローチは、通常、デリケートな機能に関する固有の情報を見落とし、パフォーマンスを同時に維持しながら公平性を達成する能力を制限します。
この課題に取り組むために、外因性変数によって動機付けられた新しい因果的推論フレームワークである外因性因果推論(EXOC)を紹介します。
補助変数を活用して、機密属性を生じさせる固有の特性を明らかにします。
私たちのフレームワークは、反事実的な公平性に寄与し、モデル内の情報フローを制御する補助ノードとコントロールノードを明示的に定義します。
合成および実世界のデータセットで実施された私たちの評価は、Exocの優位性を検証し、反事実的な公平性を達成するための最先端のアプローチを上回ることを示しています。
私たちのコードは、https://github.com/case-lab-umd/counterfactual_fairness_2025で入手できます。

要約(オリジナル)

The challenge of balancing fairness and predictive accuracy in machine learning models, especially when sensitive attributes such as race, gender, or age are considered, has motivated substantial research in recent years. Counterfactual fairness ensures that predictions remain consistent across counterfactual variations of sensitive attributes, which is a crucial concept in addressing societal biases. However, existing counterfactual fairness approaches usually overlook intrinsic information about sensitive features, limiting their ability to achieve fairness while simultaneously maintaining performance. To tackle this challenge, we introduce EXOgenous Causal reasoning (EXOC), a novel causal reasoning framework motivated by exogenous variables. It leverages auxiliary variables to uncover intrinsic properties that give rise to sensitive attributes. Our framework explicitly defines an auxiliary node and a control node that contribute to counterfactual fairness and control the information flow within the model. Our evaluation, conducted on synthetic and real-world datasets, validates EXOC’s superiority, showing that it outperforms state-of-the-art approaches in achieving counterfactual fairness. Our code is available at https://github.com/CASE-Lab-UMD/counterfactual_fairness_2025.

arxiv情報

著者 Bowei Tian,Ziyao Wang,Shwai He,Wanghao Ye,Guoheng Sun,Yucong Dai,Yongkai Wu,Ang Li
発行日 2025-02-20 18:00:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML | Towards counterfactual fairness through auxiliary variables はコメントを受け付けていません

A Neural Operator-Based Emulator for Regional Shallow Water Dynamics

要約

沿岸地域は、海面上昇や極端な気象現象の影響に対して特に脆弱です。
これらの分野での流体力学的プロセスの正確なリアルタイム予測は、インフラストラクチャの計画と気候適応に不可欠です。
この研究では、寸法削減を使用して効率的に高次の高次元数値ソルバーを使用して、時間依存性のパラメーター化された部分的な微分微分に準拠する複雑で非線形の問題について、次元削減を効率的に近似する高次の数値ソルバーである、複数入力時間演算子ネットワーク(Mitonet)を提示します。
方程式。
Mitonetは幅広い問題に適用できますが、2次元の浅い水方程式によって記述された地域の潮駆動型ダイナミクスを予測することにより、初期条件、境界条件、さまざまなドメインパラメーターを組み込みます。
現実世界のアプリケーションでのMitonetのパフォーマンスを実証し、時間とパラメトリック空間の両方で外挿することにより、正確な予測を行う能力を強調します。

要約(オリジナル)

Coastal regions are particularly vulnerable to the impacts of rising sea levels and extreme weather events. Accurate real-time forecasting of hydrodynamic processes in these areas is essential for infrastructure planning and climate adaptation. In this study, we present the Multiple-Input Temporal Operator Network (MITONet), a novel autoregressive neural emulator that employs dimensionality reduction to efficiently approximate high-dimensional numerical solvers for complex, nonlinear problems that are governed by time-dependent, parameterized partial differential equations. Although MITONet is applicable to a wide range of problems, we showcase its capabilities by forecasting regional tide-driven dynamics described by the two-dimensional shallow-water equations, while incorporating initial conditions, boundary conditions, and a varying domain parameter. We demonstrate MITONet’s performance in a real-world application, highlighting its ability to make accurate predictions by extrapolating both in time and parametric space.

arxiv情報

著者 Peter Rivera-Casillas,Sourav Dutta,Shukai Cai,Mark Loveland,Kamaljyoti Nath,Khemraj Shukla,Corey Trahan,Jonghyun Lee,Matthew Farthing,Clint Dawson
発行日 2025-02-20 18:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG, physics.comp-ph, physics.geo-ph | A Neural Operator-Based Emulator for Regional Shallow Water Dynamics はコメントを受け付けていません

An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces

要約

専門家の空間ではなく、敵の将来の行動の空間で学習者の事前が定義されている場合、専門家のアドバイスを含む予測としても知られている完全なフィードバックの下で、オンライン学習のためのトンプソンサンプリングの分析を開発します。
後悔を示して、学習者が先験的に期待した後悔に加えて、過剰な後悔と呼ぶ前の堅実さ型の用語を期待しています。
古典的な有限のエクスペルの設定では、これは最適なレートを回復します。
潜在的に不均一な数の専門家を持つ設定での実践的なオンライン学習への最初のステップとして、ベイズの最適化文献で広く使用されていた特定のガウスプロセスでトンプソンのサンプリングが$ \ mathcal {o}(\)があることを示します。
beta \ sqrt {t \ log(1+ \ lambda)})$ \ beta $ boundedに対してレート
$ \ lambda $ -lipschitz〜敵。

要約(オリジナル)

We develop an analysis of Thompson sampling for online learning under full feedback – also known as prediction with expert advice – where the learner’s prior is defined over the space of an adversary’s future actions, rather than the space of experts. We show regret decomposes into regret the learner expected a priori, plus a prior-robustness-type term we call excess regret. In the classical finite-expert setting, this recovers optimal rates. As an initial step towards practical online learning in settings with a potentially-uncountably-infinite number of experts, we show that Thompson sampling with a certain Gaussian process prior widely-used in the Bayesian optimization literature has a $\mathcal{O}(\beta\sqrt{T\log(1+\lambda)})$ rate against a $\beta$-bounded $\lambda$-Lipschitz~adversary.

arxiv情報

著者 Alexander Terenin,Jeffrey Negrea
発行日 2025-02-20 18:10:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, math.ST, stat.ML, stat.TH | An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces はコメントを受け付けていません

Differentially Private Optimization for Non-Decomposable Objective Functions

要約

監視されていない事前トレーニングは、コンピュータービジョンモデルと大規模な言語モデルの開発における一般的なステップです。
この設定では、ラベルが存在しないため、類似の入力間の距離を最小限に抑え、異なる入力間の距離を最大化することを好む、対照的な損失などの類似性ベースの損失関数を使用する必要があります。
プライバシーが懸念するにつれて、プライバシーの差を使用してこれらのモデルをトレーニングすることがより重要になりました。
ただし、これらの損失の入力がどのように生成されるかにより、望ましくない特性の1つは、$ L_2 $の感度がバッチサイズで増加することです。
このプロパティは、DP-SGDなどの差別的なプライベートトレーニング方法では特に不利です。
この問題を克服するために、合計勾配の感度を得るために目的関数の勾配を操作する類似性に基づく損失関数、特に一般的に使用されるコントラスト損失のための新しいDP-SGDバリアントを開発します。
これは、バッチサイズ$ n $の$ o(1)$です。
一部のCIFAR-10プリトレーニングおよびCIFAR-100の微調整タスクでDP-SGDバリアントをテストし、両方のタスクで、私たちの方法のパフォーマンスは非プリブモデルのパフォーマンスに近づき、一般的にDP-SGDを直接上回ることを示します。
対照的な損失に。

要約(オリジナル)

Unsupervised pre-training is a common step in developing computer vision models and large language models. In this setting, the absence of labels requires the use of similarity-based loss functions, such as contrastive loss, that favor minimizing the distance between similar inputs and maximizing the distance between distinct inputs. As privacy concerns mount, training these models using differential privacy has become more important. However, due to how inputs are generated for these losses, one of their undesirable properties is that their $L_2$ sensitivity grows with the batch size. This property is particularly disadvantageous for differentially private training methods, such as DP-SGD. To overcome this issue, we develop a new DP-SGD variant for similarity based loss functions — in particular, the commonly-used contrastive loss — that manipulates gradients of the objective function in a novel way to obtain a sensitivity of the summed gradient that is $O(1)$ for batch size $n$. We test our DP-SGD variant on some CIFAR-10 pre-training and CIFAR-100 finetuning tasks and show that, in both tasks, our method’s performance comes close to that of a non-private model and generally outperforms DP-SGD applied directly to the contrastive loss.

arxiv情報

著者 Weiwei Kong,Andrés Muñoz Medina,Mónica Ribero
発行日 2025-02-20 18:19:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Differentially Private Optimization for Non-Decomposable Objective Functions はコメントを受け付けていません

An Information-Theoretic Analysis of Thompson Sampling for Logistic Bandits

要約

ロジスティックバンディットの問題について、トンプソンサンプリングアルゴリズムのパフォーマンスを研究します。
この設定では、エージェントはロジスティック関数、$ \ exp(\ beta \ langle a、\ theta \ rangle)によって決定される確率でバイナリ報酬を受け取ります。
)$、Slopeパラメーター$ \ beta> 0 $、および両方のアクション$ a \ in \ mathcal {a} $とパラメーターの両方
$ \ theta \ in \ mathcal {o} $ $ d $ -dimensionalユニットボール内にあります。
Russo and Van Roy(2016)によって導入された情報理論的フレームワークを採用すると、情報比を分析します。これは、発生した即時の後悔と最適なアクションについて得られた情報のトレードオフを定量化する統計です。
情報比は$ \ tfrac {9} {2} d \ alpha^{-2} $で制限されることを確立することにより、以前の結果を改善します。
\ mathcal {a} $およびパラメータースペース$ \ mathcal {o} $、$ \ beta $に依存しません。
この結果を使用して、$ t $の時間ステップ後に発生したトンプソンサンプリングの予想されるベイジアンの$ o(d/\ alpha \ sqrt {t \ log(\ beta t/d)})$の境界を導き出します。
私たちの知る限り、これは、アクションの数とは独立している間、$ \ beta $に対数的にのみ依存するロジスティックバンディットに縛られた最初の後悔です。
特に、アクション空間にパラメーター空間が含まれている場合、予想される後悔のバウンドは$ \ Tilde {o}(d \ sqrt {t})$です。

要約(オリジナル)

We study the performance of the Thompson Sampling algorithm for logistic bandit problems. In this setting, an agent receives binary rewards with probabilities determined by a logistic function, $\exp(\beta \langle a, \theta \rangle)/(1+\exp(\beta \langle a, \theta \rangle))$, with slope parameter $\beta>0$, and where both the action $a\in \mathcal{A}$ and parameter $\theta \in \mathcal{O}$ lie within the $d$-dimensional unit ball. Adopting the information-theoretic framework introduced by Russo and Van Roy (2016), we analyze the information ratio, a statistic that quantifies the trade-off between the immediate regret incurred and the information gained about the optimal action. We improve upon previous results by establishing that the information ratio is bounded by $\tfrac{9}{2}d\alpha^{-2}$, where $\alpha$ is a minimax measure of the alignment between the action space $\mathcal{A}$ and the parameter space $\mathcal{O}$, and is independent of $\beta$. Using this result, we derive a bound of order $O(d/\alpha\sqrt{T \log(\beta T/d)})$ on the Bayesian expected regret of Thompson Sampling incurred after $T$ time steps. To our knowledge, this is the first regret bound for logistic bandits that depends only logarithmically on $\beta$ while being independent of the number of actions. In particular, when the action space contains the parameter space, the bound on the expected regret is of order $\tilde{O}(d \sqrt{T})$.

arxiv情報

著者 Amaury Gouverneur,Borja Rodríguez-Gálvez,Tobias J. Oechtering,Mikael Skoglund
発行日 2025-02-20 18:24:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | An Information-Theoretic Analysis of Thompson Sampling for Logistic Bandits はコメントを受け付けていません

PREM: Privately Answering Statistical Queries with Relative Error

要約

$ \ mathsf {prem} $(プライベート相対エラーの乗算重みの更新)を紹介します。これは、$(\ varepsilon、\ delta)$のプライバシー(DP)の下での統計クエリの相対的なエラー保証を達成する合成データを生成するための新しいフレームワークです。
つまり、ドメイン$ {\ cal x} $の場合、queries $ f:{\ cal x} \ to \ {0、1 \} $、および$ \ zeta> 0 $の家族$ {\ cal f} $
、私たちのフレームワークは、入力データセット$ d \ in {\ cal x}^n $が合成データセットを出力するメカニズムを生成します
$ \ widehat {d} \ in {\ cal x}^n $を$ {\ cal f} $ on $ d $、つまり$ \ sum_ {x \ in d} f(x)$ for for $ \ sum_ {x \
$ f \ in {\ cal f} $は、$ 1 \ pm \ zeta $の乗算係数に対応する値の乗算係数内です
$ \ widehat {d} $ $ \ log | {\ cal f} | $、$ \ log | {\ cal x} | $、$ \ log n $、$ \ log(
1/\ delta)$、$ 1/\ varepsilon $、および$ 1/\ zeta $。
対照的に、$(\ varepsilon、\ delta)$ -DPメカニズムは、$ n、| {\ cal f} | $、または$ | {\の少なくとも1つで多項式である最悪の添加剤エラーを必要とすることが知られています。
Cal X} | $。
ほぼ一致する下限でアルゴリズムを補完します。

要約(オリジナル)

We introduce $\mathsf{PREM}$ (Private Relative Error Multiplicative weight update), a new framework for generating synthetic data that achieves a relative error guarantee for statistical queries under $(\varepsilon, \delta)$ differential privacy (DP). Namely, for a domain ${\cal X}$, a family ${\cal F}$ of queries $f : {\cal X} \to \{0, 1\}$, and $\zeta > 0$, our framework yields a mechanism that on input dataset $D \in {\cal X}^n$ outputs a synthetic dataset $\widehat{D} \in {\cal X}^n$ such that all statistical queries in ${\cal F}$ on $D$, namely $\sum_{x \in D} f(x)$ for $f \in {\cal F}$, are within a $1 \pm \zeta$ multiplicative factor of the corresponding value on $\widehat{D}$ up to an additive error that is polynomial in $\log |{\cal F}|$, $\log |{\cal X}|$, $\log n$, $\log(1/\delta)$, $1/\varepsilon$, and $1/\zeta$. In contrast, any $(\varepsilon, \delta)$-DP mechanism is known to require worst-case additive error that is polynomial in at least one of $n, |{\cal F}|$, or $|{\cal X}|$. We complement our algorithm with nearly matching lower bounds.

arxiv情報

著者 Badih Ghazi,Cristóbal Guzmán,Pritish Kamath,Alexander Knop,Ravi Kumar,Pasin Manurangsi,Sushant Sachdeva
発行日 2025-02-20 18:32:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | PREM: Privately Answering Statistical Queries with Relative Error はコメントを受け付けていません

Dynamic Low-Rank Sparse Adaptation for Large Language Models

要約

大規模な言語モデル(LLM)の展開株を緩和する上でのネットワークスパースの有効性にもかかわらず、それは大きなパフォーマンスの劣化に耐えます。
低ランクの適応(LORA)を適用してスパースLLMSを微調整することで、この苦境に対抗するための直感的なアプローチがありますが、1)トレーニング後のLLMS LLMSにLORAの重みを統合できないこと、2)パフォーマンスが不十分なパフォーマンスが含まれます。
高い疎剤比での回復。
このホワイトペーパーでは、統合フレームワーク内で低ランクの適応をLLMスパースにシームレスに統合する新しい方法であるダイナミックローランクスパース適応(LOSA)を紹介し、それにより、推論のレイテンシを上げることなくまばらなLLMのパフォーマンスを向上させます。
特に、LOSAは、微調整中の対応するスパースウェイトに基づいてLORAの結果を動的に除いて、LORAモジュールをトレーニング後のまばらなLLMSに統合できることを保証します。
その上、Losaは表現をレバレッショニングする相互情報(RMI)を層の重要性を決定するためのインジケーターとして活用し、それにより微調整中の層ごとのスパース速度を効率的に決定します。
これに基づいて、Losaはレイヤーごとの再構成エラーの変動性に基づいてLORAモジュールのランクを調整し、各レイヤーに適切な微調整を割り当てて、密なLLMとスパースLLMの間の出力の不一致を減らします。
広範な実験では、ロサは、追加の推論的負担を導入することなく、数時間以内にスパースLLMの有効性を効率的に向上させることができます。
たとえば、LosaはスパースLlama-2-7Bの困惑を68.73増加させ、ゼロショット精度を16.32 $ \%$増加させ、CPUで2.60 $ \ Times $ SpeedUpとGPUで2.23 $ \ Times $ SpeedUpを達成し、必要とします。
単一のNVIDIA A100 80GB GPUでのわずか45分の微調整。
コードはhttps://github.com/wzhuang-xmu/losaで入手できます。

要約(オリジナル)

Despite the efficacy of network sparsity in alleviating the deployment strain of Large Language Models (LLMs), it endures significant performance degradation. Applying Low-Rank Adaptation (LoRA) to fine-tune the sparse LLMs offers an intuitive approach to counter this predicament, while it holds shortcomings include: 1) The inability to integrate LoRA weights into sparse LLMs post-training, and 2) Insufficient performance recovery at high sparsity ratios. In this paper, we introduce dynamic Low-rank Sparse Adaptation (LoSA), a novel method that seamlessly integrates low-rank adaptation into LLM sparsity within a unified framework, thereby enhancing the performance of sparse LLMs without increasing the inference latency. In particular, LoSA dynamically sparsifies the LoRA outcomes based on the corresponding sparse weights during fine-tuning, thus guaranteeing that the LoRA module can be integrated into the sparse LLMs post-training. Besides, LoSA leverages Representation Mutual Information (RMI) as an indicator to determine the importance of layers, thereby efficiently determining the layer-wise sparsity rates during fine-tuning. Predicated on this, LoSA adjusts the rank of the LoRA module based on the variability in layer-wise reconstruction errors, allocating an appropriate fine-tuning for each layer to reduce the output discrepancies between dense and sparse LLMs. Extensive experiments tell that LoSA can efficiently boost the efficacy of sparse LLMs within a few hours, without introducing any additional inferential burden. For example, LoSA reduced the perplexity of sparse LLaMA-2-7B by 68.73 and increased zero-shot accuracy by 16.32$\%$, achieving a 2.60$\times$ speedup on CPU and 2.23$\times$ speedup on GPU, requiring only 45 minutes of fine-tuning on a single NVIDIA A100 80GB GPU. Code is available at https://github.com/wzhuang-xmu/LoSA.

arxiv情報

著者 Weizhong Huang,Yuxin Zhang,Xiawu Zheng,Yang Liu,Jing Lin,Yiwu Yao,Rongrong Ji
発行日 2025-02-20 18:37:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Dynamic Low-Rank Sparse Adaptation for Large Language Models はコメントを受け付けていません

Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

要約

AIの長年の目標は、以前に見えなかった環境を含むさまざまな環境でさまざまなタスクを解決できるエージェントを構築することです。
この課題に取り組む2つの支配的なアプローチ:(i)試行錯誤を通じてポリシーを学習する補強学習(RL)、および(ii)学習または既知のダイナミクスモデルを使用してアクションを計画する最適な制御。
ただし、彼らの相対的な長所と短所は、報酬の注釈なしでオフラインの軌跡からエージェントが学習しなければならない設定では、目の足の依存していないままです。
この作業では、さまざまな品質のデータセットの下で、さまざまなRLと制御ベースのメソッドのパフォーマンスを体系的に分析します。
RL側では、ゴールコンディショニングとゼロショットのアプローチを検討します。
コントロール側では、ジョイント埋め込み予測アーキテクチャ(JEPA)を使用して潜在的なダイナミクスモデルをトレーニングし、計画に使用します。
データの多様性、軌跡の品質、環境の変動など、データセットのプロパティなど、これらのアプローチのパフォーマンスにどのように影響するかを研究します。
我々の結果は、モデルのないRLが豊富で高品質のデータが利用可能になった場合に優れていることを示していますが、モデルベースの計画は、新しい環境レイアウト、軌跡ステッチ、およびデータ効率に一般化に優れています。
特に、潜在的なダイナミクスモデルでの計画は、最適ではないデータからのゼロショット一般化のための有望なアプローチとして浮上しています。

要約(オリジナル)

A long-standing goal in AI is to build agents that can solve a variety of tasks across different environments, including previously unseen ones. Two dominant approaches tackle this challenge: (i) reinforcement learning (RL), which learns policies through trial and error, and (ii) optimal control, which plans actions using a learned or known dynamics model. However, their relative strengths and weaknesses remain underexplored in the setting where agents must learn from offline trajectories without reward annotations. In this work, we systematically analyze the performance of different RL and control-based methods under datasets of varying quality. On the RL side, we consider goal-conditioned and zero-shot approaches. On the control side, we train a latent dynamics model using the Joint Embedding Predictive Architecture (JEPA) and use it for planning. We study how dataset properties-such as data diversity, trajectory quality, and environment variability-affect the performance of these approaches. Our results show that model-free RL excels when abundant, high-quality data is available, while model-based planning excels in generalization to novel environment layouts, trajectory stitching, and data-efficiency. Notably, planning with a latent dynamics model emerges as a promising approach for zero-shot generalization from suboptimal data.

arxiv情報

著者 Vlad Sobal,Wancong Zhang,Kynghyun Cho,Randall Balestriero,Tim G. J. Rudner,Yann LeCun
発行日 2025-02-20 18:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models はコメントを受け付けていません

Meshless Shape Optimization using Neural Networks and Partial Differential Equations on Graphs

要約

形状の最適化には、部分的な微分方程式(PDE)によって支配されることが多い一連の形状で定義されるコスト関数の最小化が含まれます。
閉形型のソリューションがない場合、ソリューションを近似するために数値的な方法に依存しています。
Level Setメソッド – 有限要素メソッドと組み合わされた場合 – は、最も汎用性の高い数値形状の最適化アプローチの1つですが、ほとんどのメッシュベースの方法の制限に悩まされています。
この作業では、ニューラルネットワークを活用してレベルセット関数をパラメーター化し、グラフLaplacianを使用して基礎となるPDEを近似する完全にメッシュレスレベルセットフレームワークを提示します。
私たちのアプローチにより、表面正常や曲率などの幾何学的な量の正確な計算が可能になり、凸形状のクラス内で最適化の問題に取り組むことができます。

要約(オリジナル)

Shape optimization involves the minimization of a cost function defined over a set of shapes, often governed by a partial differential equation (PDE). In the absence of closed-form solutions, one relies on numerical methods to approximate the solution. The level set method — when coupled with the finite element method — is one of the most versatile numerical shape optimization approaches but still suffers from the limitations of most mesh-based methods. In this work, we present a fully meshless level set framework that leverages neural networks to parameterize the level set function and employs the graph Laplacian to approximate the underlying PDE. Our approach enables precise computations of geometric quantities such as surface normals and curvature, and allows tackling optimization problems within the class of convex shapes.

arxiv情報

著者 Eloi Martinet,Leon Bungert
発行日 2025-02-20 18:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 49Q10, 65N22, 65N25, 68T07, cs.LG, cs.NA, math.NA, math.OC | Meshless Shape Optimization using Neural Networks and Partial Differential Equations on Graphs はコメントを受け付けていません