EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

要約

潜在的な生成モデルは、高品質の画像合成の主要なアプローチとして浮上しています。
これらのモデルは、自動エンコーダーに依存して画像を潜在スペースに圧縮し、その後に生成モデルが続き、潜在的な分布を学習します。
既存の自動エンコーダーには、スケーリングや回転などのセマンティックプレゼントの変換との等容量がなく、生成パフォーマンスを妨げる複雑な潜在スペースをもたらすことを特定します。
これに対処するために、潜在空間での等量性を強化する簡単な正則化アプローチであるEQ-Vaeを提案し、再構成の質を低下させることなくその複雑さを減らします。
EQ-VAEを使用して事前に訓練された自動エンコーダーを微調整することにより、DIT、SIT、Repa、MaskGITを含むいくつかの最先端の生成モデルのパフォーマンスを強化し、DIT-XL/2で7つのエポックで7スピードアップを達成します。
sd-vaeの微調整。
EQ-VAEは、連続的および離散的な自動エンコーダーの両方と互換性があるため、広範囲の潜在的な生成モデルに多用途の強化が提供されます。
プロジェクトページとコード:https://eq-vae.github.io/。

要約(オリジナル)

Latent generative models have emerged as a leading approach for high-quality image synthesis. These models rely on an autoencoder to compress images into a latent space, followed by a generative model to learn the latent distribution. We identify that existing autoencoders lack equivariance to semantic-preserving transformations like scaling and rotation, resulting in complex latent spaces that hinder generative performance. To address this, we propose EQ-VAE, a simple regularization approach that enforces equivariance in the latent space, reducing its complexity without degrading reconstruction quality. By finetuning pre-trained autoencoders with EQ-VAE, we enhance the performance of several state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT, achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning. EQ-VAE is compatible with both continuous and discrete autoencoders, thus offering a versatile enhancement for a wide range of latent generative models. Project page and code: https://eq-vae.github.io/.

arxiv情報

著者 Theodoros Kouzelis,Ioannis Kakogeorgiou,Spyros Gidaris,Nikos Komodakis
発行日 2025-02-13 17:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling はコメントを受け付けていません

Robust Learning of Multi-index Models via Iterative Subspace Approximation

要約

ガウス分布の下でラベルノイズを使用して、マルチインデックスモデル(MIM)を学習するタスクを研究します。
A $ k $ -MIMは、$ k $ -dimensionalサブスペースにのみ依存する関数$ f $です。
特定の規則性特性を満たす有限範囲を持つ、行儀の良いMIMに焦点を当てます。
私たちの主な貢献は、統計クエリ(SQ)モデルで定性的に最適な一般的な堅牢な学習者です。
私たちのアルゴリズムは、これまでに計算されたサブスペースへの投影を条件とし、比較的大きな経験的モーメントを持つ方向を追加することを条件とする低程度のモーメントを計算することにより、定義サブスペースのより良い近似を繰り返し構築します。
この手順は、$ f(\ mathbf {x})$が$ \ mathbf {x} $の投影の関数に近いように、サブスペース$ v $を効率的に見つけます。
逆に、これらの条件付きモーメントが役に立たない機能については、効率的な学習者が存在しないことを示唆するSQの下限を証明します。
アプリケーションとして、次の概念クラスに対してより高速な堅牢な学習者を提供します。 * {\ bfマルチクラス線形分類器}一定の因子に、サンプルの複雑さ$ n = o(d)2^{\ mathrm {poly}(
k/\ epsilon)} $および計算の複雑さ$ \ mathrm {poly}(n、d)$。
これは、このクラスの最初の一定の因子不可知論者学習者であり、その複雑さは$ d $の固定級多項式です。
* {\ bfハーフスペースの交差点}このクラスのおおよその不可知論学習者に0-1エラー$ k \ tilde {o}(\ mathrm {opt}) + \ epsilon $ with supplementity $ n = o(d^
2)2^{\ mathrm {poly}(k/\ epsilon)} $および計算の複雑さ$ \ mathrm {poly}(n、d)$。
これは、このクラスの最初の不可知論者の学習者であり、ほぼ線形の誤差依存性と複雑さが$ d $の固定級多項式です。
さらに、ランダム分類ノイズが存在する場合、アルゴリズムの複雑さは、$ 1/\ epsilon $で多項式的にスケーリングすることを示しています。

要約(オリジナル)

We study the task of learning Multi-Index Models (MIMs) with label noise under the Gaussian distribution. A $K$-MIM is any function $f$ that only depends on a $K$-dimensional subspace. We focus on well-behaved MIMs with finite ranges that satisfy certain regularity properties. Our main contribution is a general robust learner that is qualitatively optimal in the Statistical Query (SQ) model. Our algorithm iteratively constructs better approximations to the defining subspace by computing low-degree moments conditional on the projection to the subspace computed thus far, and adding directions with relatively large empirical moments. This procedure efficiently finds a subspace $V$ so that $f(\mathbf{x})$ is close to a function of the projection of $\mathbf{x}$ onto $V$. Conversely, for functions for which these conditional moments do not help, we prove an SQ lower bound suggesting that no efficient learner exists. As applications, we provide faster robust learners for the following concept classes: * {\bf Multiclass Linear Classifiers} We give a constant-factor approximate agnostic learner with sample complexity $N = O(d) 2^{\mathrm{poly}(K/\epsilon)}$ and computational complexity $\mathrm{poly}(N ,d)$. This is the first constant-factor agnostic learner for this class whose complexity is a fixed-degree polynomial in $d$. * {\bf Intersections of Halfspaces} We give an approximate agnostic learner for this class achieving 0-1 error $K \tilde{O}(\mathrm{OPT}) + \epsilon$ with sample complexity $N=O(d^2) 2^{\mathrm{poly}(K/\epsilon)}$ and computational complexity $\mathrm{poly}(N ,d)$. This is the first agnostic learner for this class with near-linear error dependence and complexity a fixed-degree polynomial in $d$. Furthermore, we show that in the presence of random classification noise, the complexity of our algorithm scales polynomially with $1/\epsilon$.

arxiv情報

著者 Ilias Diakonikolas,Giannis Iakovidis,Daniel M. Kane,Nikos Zarifis
発行日 2025-02-13 17:37:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH | Robust Learning of Multi-index Models via Iterative Subspace Approximation はコメントを受け付けていません

Fast Tensor Completion via Approximate Richardson Iteration

要約

低ランクテンソル分解(TD)のレンズを介してテンソル完成(TC)を研究します。
多くのTDアルゴリズムは、高速の交互の最小化方法を使用します。これは、各ステップで高度に構造化された線形回帰問題を解決します(例:CP、タッカー、テンソルトレイン分解など)。
ただし、このような代数構造はTC回帰問題で失われ、直接拡張が不明確になります。
これに対処するために、構造化されたTD回帰​​アルゴリズムをBlackboxサブルーチンとして使用してTC回帰問題をほぼ解決するリフティングアプローチを提案し、サブリンタイム方法を可能にします。
おおよそのリチャードソンイテレーションベースのアルゴリズムの収束率を理論的に分析し、実際のテンサでは、実行時間がCP完了の直接的な方法よりも100倍高速になる可能性があることを示しています。

要約(オリジナル)

We study tensor completion (TC) through the lens of low-rank tensor decomposition (TD). Many TD algorithms use fast alternating minimization methods, which solve highly structured linear regression problems at each step (e.g., for CP, Tucker, and tensor-train decompositions). However, such algebraic structure is lost in TC regression problems, making direct extensions unclear. To address this, we propose a lifting approach that approximately solves TC regression problems using structured TD regression algorithms as blackbox subroutines, enabling sublinear-time methods. We theoretically analyze the convergence rate of our approximate Richardson iteration based algorithm, and we demonstrate on real-world tensors that its running time can be 100x faster than direct methods for CP completion.

arxiv情報

著者 Mehrdad Ghadiri,Matthew Fahrbach,Yunbum Kook,Ali Jadbabaie
発行日 2025-02-13 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.TH | Fast Tensor Completion via Approximate Richardson Iteration はコメントを受け付けていません

SyntheticPop: Attacking Speaker Verification Systems With Synthetic VoicePops

要約

自動スピーカー検証(ASV)としても知られる音声認証(VA)は、特にユーザー認証の二次層として機能する銀行サービスなどの自動化されたシステムで、広く採用された認証方法です。
その人気にもかかわらず、VAシステムは、リプレイ、なりすまし、および正当なユーザーの声を模倣するディープファークオーディオの新たな脅威など、さまざまな攻撃に対して脆弱です。
これらのリスクを軽減するために、いくつかの防御メカニズムが提案されています。
そのような解決策の1つである音声ポップは、登録プロセス中に個人のユニークな音素発音を区別することを目指しています。
有望である間、より広範な攻撃、特に論理的または敵対的な攻撃に対するVA+VoicePopの有効性は、不十分に調査されたままです。
VA+VoicePopシステムの音素認識能力を標的とするように設計されたSyntheticPopと呼ばれる新しい攻撃方法を提案します。
SyntheticPop攻撃には、合成の「ポップ」ノイズをスプーフィングされたオーディオサンプルに埋め込み、モデルのパフォーマンスを大幅に低下させます。
トレーニングデータセットの20%を中毒しながら、95%を超える攻撃成功率を達成しています。
私たちの実験は、VA+VoicePopが通常の条件下で69%の精度を達成し、ベースラインラベルフリッピング攻撃を受けた場合、37%の精度を達成し、提案されたSyntheticPop攻撃で14%の精度を達成し、方法の有効性を強調することを示しています。

要約(オリジナル)

Voice Authentication (VA), also known as Automatic Speaker Verification (ASV), is a widely adopted authentication method, particularly in automated systems like banking services, where it serves as a secondary layer of user authentication. Despite its popularity, VA systems are vulnerable to various attacks, including replay, impersonation, and the emerging threat of deepfake audio that mimics the voice of legitimate users. To mitigate these risks, several defense mechanisms have been proposed. One such solution, Voice Pops, aims to distinguish an individual’s unique phoneme pronunciations during the enrollment process. While promising, the effectiveness of VA+VoicePop against a broader range of attacks, particularly logical or adversarial attacks, remains insufficiently explored. We propose a novel attack method, which we refer to as SyntheticPop, designed to target the phoneme recognition capabilities of the VA+VoicePop system. The SyntheticPop attack involves embedding synthetic ‘pop’ noises into spoofed audio samples, significantly degrading the model’s performance. We achieve an attack success rate of over 95% while poisoning 20% of the training dataset. Our experiments demonstrate that VA+VoicePop achieves 69% accuracy under normal conditions, 37% accuracy when subjected to a baseline label flipping attack, and just 14% accuracy under our proposed SyntheticPop attack, emphasizing the effectiveness of our method.

arxiv情報

著者 Eshaq Jamdar,Amith Kamath Belman
発行日 2025-02-13 18:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | SyntheticPop: Attacking Speaker Verification Systems With Synthetic VoicePops はコメントを受け付けていません

Asymptotic Normality of Generalized Low-Rank Matrix Sensing via Riemannian Geometry

要約

一般化された低ランクマトリックスセンシングの漸近正常保証 – すなわち、一般的な凸損失$ \ bar \ ell(\ langle x、m \ rangle、y^*)$の下でのマトリックスセンシング、$ m \ in \ in \
Mathbb {r}^{d \ times d} $は未知のランクです-$ $ k $ matrix、$ x $は測定マトリックス、$ y^*$は対応する測定です。
私たちの分析は、パラメーター空間の回転対称性による損失のヘシアンの変性を処理するために、Riemannianの幾何学からのツールに依存しています。
特に、低ランクマトリックスのマニホールドを$ \ bar \ theta \ bar \ theta^\ top $によってパラメーター化します。
次に、経験的損失の最小化$ \ bar \ theta^0 \ in \ mathbb {r}^{d \ times k} $は、真のパラメーター$ \ bar \ theta^*$、
$ \ sqrt {n}(\ phi^0- \ phi^*)\ xRightArrow {d} n(0、(h^*)^{-1})$ as $ n \ to \ infty $を証明します
$ \ phi^0 $および$ \ phi^*$は、$ \ bar \ theta^*$および$ \ bar \ theta^0 $の表現です。
d \ times k}/\ text {o}(k)$、および$ h^*$は、同じ表現における真の損失のヘシアンです。

要約(オリジナル)

We prove an asymptotic normality guarantee for generalized low-rank matrix sensing — i.e., matrix sensing under a general convex loss $\bar\ell(\langle X,M\rangle,y^*)$, where $M\in\mathbb{R}^{d\times d}$ is the unknown rank-$k$ matrix, $X$ is a measurement matrix, and $y^*$ is the corresponding measurement. Our analysis relies on tools from Riemannian geometry to handle degeneracy of the Hessian of the loss due to rotational symmetry in the parameter space. In particular, we parameterize the manifold of low-rank matrices by $\bar\theta\bar\theta^\top$, where $\bar\theta\in\mathbb{R}^{d\times k}$. Then, assuming the minimizer of the empirical loss $\bar\theta^0\in\mathbb{R}^{d\times k}$ is in a constant size ball around the true parameters $\bar\theta^*$, we prove $\sqrt{n}(\phi^0-\phi^*)\xrightarrow{D}N(0,(H^*)^{-1})$ as $n\to\infty$, where $\phi^0$ and $\phi^*$ are representations of $\bar\theta^*$ and $\bar\theta^0$ in the horizontal space of the Riemannian quotient manifold $\mathbb{R}^{d\times k}/\text{O}(k)$, and $H^*$ is the Hessian of the true loss in the same representation.

arxiv情報

著者 Osbert Bastani
発行日 2025-02-13 18:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Asymptotic Normality of Generalized Low-Rank Matrix Sensing via Riemannian Geometry はコメントを受け付けていません

Enhancing the Utility of Higher-Order Information in Relational Learning

要約

関係は、関係がペアワイズの相互作用を超えて及ぶ多くのドメインでのリレーショナル学習にとって重要です。
ハイパーグラフは、そのような関係をモデル化するための自然なフレームワークを提供します。これにより、グラフニューラルネットワークアーキテクチャの最近の拡張がハイパーグラフに動機付けられています。
ただし、ハイパーグラフアーキテクチャと標準のグラフレベルモデルの比較は限られたままです。
この作業では、ハイパーグラフレベルとグラフレベルのアーキテクチャの選択を体系的に評価して、リレーショナル学習における高次情報を活用する際の有効性を判断します。
私たちの結果は、ハイパーグラフの拡張に適用されるグラフレベルのアーキテクチャが、ハイパーグラフとして自然にパラメーター化された入力でさえ、ハイパーグラフレベルの拡張を上回ることが多いことを示しています。
高次情報を活用するための代替アプローチとして、古典的なハイパーグラフ特性に基づいてハイパーグラフレベルのエンコーディングを提案します。
これらのエンコードはハイパーグラフアーキテクチャを大幅に改善しませんが、グラフレベルのモデルと組み合わせると、かなりのパフォーマンスの向上が得られます。
私たちの理論分析は、ハイパーグラフレベルのエンコーディングが、グラフレベルのカウンターパートを超えてメッセージ通過グラフニューラルネットワークの表現力を証明することを証明することを示しています。

要約(オリジナル)

Higher-order information is crucial for relational learning in many domains where relationships extend beyond pairwise interactions. Hypergraphs provide a natural framework for modeling such relationships, which has motivated recent extensions of graph neural net- work architectures to hypergraphs. However, comparisons between hypergraph architectures and standard graph-level models remain limited. In this work, we systematically evaluate a selection of hypergraph-level and graph-level architectures, to determine their effectiveness in leveraging higher-order information in relational learning. Our results show that graph-level architectures applied to hypergraph expansions often outperform hypergraph- level ones, even on inputs that are naturally parametrized as hypergraphs. As an alternative approach for leveraging higher-order information, we propose hypergraph-level encodings based on classical hypergraph characteristics. While these encodings do not significantly improve hypergraph architectures, they yield substantial performance gains when combined with graph-level models. Our theoretical analysis shows that hypergraph-level encodings provably increase the representational power of message-passing graph neural networks beyond that of their graph-level counterparts.

arxiv情報

著者 Raphael Pellegrin,Lukas Fesser,Melanie Weber
発行日 2025-02-13 18:28:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Enhancing the Utility of Higher-Order Information in Relational Learning はコメントを受け付けていません

DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra

要約

質量分析は、未知の分子の構造とその後の科学的発見の構造を解明する上で基本的な役割を果たします。
構造解明タスクの1つの定式化は、質量スペクトルが与えられた分子構造の条件付き$ \ textit {de novo} $生成です。
小分子用のより正確で効率的な科学的発見パイプラインに向けて、このタスクで最先端のパフォーマンスを実現するフォーミュラ制限エンコーダーデコーダー生成ネットワークであるDIFFMSを提示します。
エンコーダーは、トランスアーキテクチャを使用し、ピーク式やニュートラル損失などのマススペクトルドメインの知識をモデル化し、デコーダーは既知の化学式の大原因組成によって制限された離散グラフ拡散モデルです。
潜在的な埋め込みと分子構造を橋渡しする堅牢なデコーダーを開発するために、構造スペクトルペアと比較して、実質的に無限の量で利用可能な指紋構造ペアで拡散デコーダーを前処理します。
確立されたベンチマークに関する広範な実験は、diffMが$ \ textit {de novo} $分子生成の既存のモデルを上回ることを示しています。
拡散および事前削除のアプローチの有効性を実証するために、いくつかのアブレーションを提供し、前登録データセットサイズの増加に伴う一貫したパフォーマンススケーリングを示します。
DIFFMSコードは、https://github.com/coleygroup/diffmsで公開されています。

要約(オリジナル)

Mass spectrometry plays a fundamental role in elucidating the structures of unknown molecules and subsequent scientific discoveries. One formulation of the structure elucidation task is the conditional $\textit{de novo}$ generation of molecular structure given a mass spectrum. Toward a more accurate and efficient scientific discovery pipeline for small molecules, we present DiffMS, a formula-restricted encoder-decoder generative network that achieves state-of-the-art performance on this task. The encoder utilizes a transformer architecture and models mass spectra domain knowledge such as peak formulae and neutral losses, and the decoder is a discrete graph diffusion model restricted by the heavy-atom composition of a known chemical formula. To develop a robust decoder that bridges latent embeddings and molecular structures, we pretrain the diffusion decoder with fingerprint-structure pairs, which are available in virtually infinite quantities, compared to structure-spectrum pairs that number in the tens of thousands. Extensive experiments on established benchmarks show that DiffMS outperforms existing models on $\textit{de novo}$ molecule generation. We provide several ablations to demonstrate the effectiveness of our diffusion and pretraining approaches and show consistent performance scaling with increasing pretraining dataset size. DiffMS code is publicly available at https://github.com/coleygroup/DiffMS.

arxiv情報

著者 Montgomery Bohde,Mrunali Manjrekar,Runzhong Wang,Shuiwang Ji,Connor W. Coley
発行日 2025-02-13 18:29:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra はコメントを受け付けていません

Learning to Coordinate with Experts

要約

動的環境に展開されると、AIエージェントは必然的に個々の機能を超える課題に遭遇します。
専門家のエージェントからの支援を活用する – 人間であろうとAI-canであろうと、このような状況での安全性とパフォーマンスが大幅に向上します。
ただし、専門家のクエリには費用がかかることがよく、専門家のガイダンスを効率的に要求し、利用できるエージェントの開発が必要です。
このホワイトペーパーでは、Learning To rieck and Requirect Control(YRC)と呼ばれる基本的な調整問題を紹介します。ここでは、目的は、いつ自律的に行​​動するか、いつ専門家の支援を求めるかを決定する戦略を学ぶことです。
エージェントがトレーニング中に専門家とやり取りするのではなく、テスト時に新しい環境の変化と専門家の介入に適応しなければならない挑戦的な実用的な設定を検討します。
実証研究を促進するために、多様なドメインを備えたオープンソースベンチマークであるYRCベンチを紹介します。
YRCベンチは、標準化されたジムのようなAPI、シミュレートされた専門家、評価パイプライン、および競争力のあるベースラインの実装を提供します。
YRCの問題への取り組みに向けて、新しい検証アプローチを提案し、多様な環境にわたるさまざまな学習方法のパフォーマンスを調査し、将来の研究を導くことができる洞察をもたらします。

要約(オリジナル)

When deployed in dynamic environments, AI agents will inevitably encounter challenges that exceed their individual capabilities. Leveraging assistance from expert agents-whether human or AI-can significantly enhance safety and performance in such situations. However, querying experts is often costly, necessitating the development of agents that can efficiently request and utilize expert guidance. In this paper, we introduce a fundamental coordination problem called Learning to Yield and Request Control (YRC), where the objective is to learn a strategy that determines when to act autonomously and when to seek expert assistance. We consider a challenging practical setting in which an agent does not interact with experts during training but must adapt to novel environmental changes and expert interventions at test time. To facilitate empirical research, we introduce YRC-Bench, an open-source benchmark featuring diverse domains. YRC-Bench provides a standardized Gym-like API, simulated experts, evaluation pipeline, and implementation of competitive baselines. Towards tackling the YRC problem, we propose a novel validation approach and investigate the performance of various learning methods across diverse environments, yielding insights that can guide future research.

arxiv情報

著者 Mohamad H. Danesh,Tu Trinh,Benjamin Plaut,Nguyen X. Khanh
発行日 2025-02-13 18:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Learning to Coordinate with Experts はコメントを受け付けていません

Rolling Ahead Diffusion for Traffic Scene Simulation

要約

現実的な運転シミュレーションでは、NPCが自然な駆動行動を模倣するだけでなく、他のシミュレートされたエージェントの挙動にも反応する必要があります。
拡散ベースのシナリオ生成の最近の開発は、シーン内のすべてのエージェントの動きを共同でモデル化することにより、多様で現実的なトラフィックシナリオを作成することに焦点を当てています。
ただし、これらのトラフィックシナリオは、エージェントの動きがモデル化された軌跡から逸脱している場合に反応しません。
たとえば、エゴエージェントは、モーションプランナーに沿ったスタンドによって制御できます。
共同シナリオモデルを使用してリアクティブシナリオを作成するには、モデルは、モデル予測制御(MPC)ファッションの新しい観測に基づいて、各タイムステップでシナリオを再生する必要があります。
反応的ですが、この方法は時間がかかります。すべてのNPCの1つの完全な将来がシミュレーションステップごとに生成されるためです。
あるいは、自己回帰モデル(AR)を利用して、すべてのNPCの近い段階の将来のみを予測することができます。
より速いですが、この方法には高度な計画の能力がありません。
次のステップの将来を予測し、同時に部分的に将来のステップを同時に予測することにより、両方の方法の利点を混同するローリング拡散ベースのトラフィックシーン生成モデルを提示します。
このようなモデルは、拡散モデルベースのARと比較して効率的であり、反応性と計算効率の間の有益な妥協を達成していることを示しています。

要約(オリジナル)

Realistic driving simulation requires that NPCs not only mimic natural driving behaviors but also react to the behavior of other simulated agents. Recent developments in diffusion-based scenario generation focus on creating diverse and realistic traffic scenarios by jointly modelling the motion of all the agents in the scene. However, these traffic scenarios do not react when the motion of agents deviates from their modelled trajectories. For example, the ego-agent can be controlled by a stand along motion planner. To produce reactive scenarios with joint scenario models, the model must regenerate the scenario at each timestep based on new observations in a Model Predictive Control (MPC) fashion. Although reactive, this method is time-consuming, as one complete possible future for all NPCs is generated per simulation step. Alternatively, one can utilize an autoregressive model (AR) to predict only the immediate next-step future for all NPCs. Although faster, this method lacks the capability for advanced planning. We present a rolling diffusion based traffic scene generation model which mixes the benefits of both methods by predicting the next step future and simultaneously predicting partially noised further future steps at the same time. We show that such model is efficient compared to diffusion model based AR, achieving a beneficial compromise between reactivity and computational efficiency.

arxiv情報

著者 Yunpeng Liu,Matthew Niedoba,William Harvey,Adam Scibior,Berend Zwartsenberg,Frank Wood
発行日 2025-02-13 18:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Rolling Ahead Diffusion for Traffic Scene Simulation はコメントを受け付けていません

Censor Dependent Variational Inference

要約

このペーパーでは、生存方法を適用することに関連する特徴的な課題を強調し、生存分析のための潜在変数モデルにおける変動推論の包括的な分析を提供します。
既存の方法論の重大な弱点を特定し、設計されていない変分分布が生存分析タスクの目的、つまりイベント分布のモデリングの目的をどのように妨げるかを示します。
対数尤度を完全に境界する最適な変動分布は、検閲メカニズムに依存する可能性があることを証明します。
この問題に対処するために、生存分析で潜在的な可変モデルに合わせて調整された検閲依存性変動推論(CDVI)を提案します。
より実際には、CDVIのスケーラブルな実装のために設計されたV-Structure Variation Autoencoder(VAE)であるCD-CVAEを紹介します。
さらなる議論では、いくつかの既存の理論とトレーニング技術を生存分析に拡張します。
広範な実験は、分析を検証し、個々の生存分布の推定における大幅な改善を示します。

要約(オリジナル)

This paper provides a comprehensive analysis of variational inference in latent variable models for survival analysis, emphasizing the distinctive challenges associated with applying variational methods to survival data. We identify a critical weakness in the existing methodology, demonstrating how a poorly designed variational distribution may hinder the objective of survival analysis tasks–modeling time-to-event distributions. We prove that the optimal variational distribution, which perfectly bounds the log-likelihood, may depend on the censoring mechanism. To address this issue, we propose censor-dependent variational inference (CDVI), tailored for latent variable models in survival analysis. More practically, we introduce CD-CVAE, a V-structure Variational Autoencoder (VAE) designed for the scalable implementation of CDVI. Further discussion extends some existing theories and training techniques to survival analysis. Extensive experiments validate our analysis and demonstrate significant improvements in the estimation of individual survival distributions.

arxiv情報

著者 Chuanhui Liu,Xiao Wang
発行日 2025-02-13 18:48:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Censor Dependent Variational Inference はコメントを受け付けていません