Flying in Highly Dynamic Environments with End-to-end Learning Approach

要約

Quadrotorsのような無人航空機の障害物の回避は、人気のある研究トピックです。
既存の研究のほとんどは、静的環境のみに焦点を当てており、複数の動的障害を持つ環境での障害物の回避は依然として困難です。
このペーパーでは、非常に動的な環境をナビゲートするための四肢装置のための新しい深層補給学習ベースのアプローチを提案します。
Lidarデータエンコーダーを提案して、LiDARから大規模なポイントクラウドデータから障害物情報を抽出します。
履歴スキャンのマルチフレームは、必要な障害物機能を維持しながら、2次元障害物マップに圧縮されます。
エンドツーエンドの深いニューラルネットワークは、障害物マップから動的および静的障害物の運動学を抽出するように訓練されており、これらの障害を回避するためにそれを制御するために四角体に加速コマンドを生成します。
私たちのアプローチには、単一のニューラルネットワーク内の知覚とナビゲート機能が含まれており、ナビゲーション状態からモードの切り替えなしでホバリング状態に変わる可能性があります。
また、非常にダイナミックな乱雑な環境でナビゲートしながら、アプローチの有効性を示すシミュレーションと実世界の実験も提示します。

要約(オリジナル)

Obstacle avoidance for unmanned aerial vehicles like quadrotors is a popular research topic. Most existing research focuses only on static environments, and obstacle avoidance in environments with multiple dynamic obstacles remains challenging. This paper proposes a novel deep-reinforcement learning-based approach for the quadrotors to navigate through highly dynamic environments. We propose a lidar data encoder to extract obstacle information from the massive point cloud data from the lidar. Multi frames of historical scans will be compressed into a 2-dimension obstacle map while maintaining the obstacle features required. An end-to-end deep neural network is trained to extract the kinematics of dynamic and static obstacles from the obstacle map, and it will generate acceleration commands to the quadrotor to control it to avoid these obstacles. Our approach contains perception and navigating functions in a single neural network, which can change from a navigating state into a hovering state without mode switching. We also present simulations and real-world experiments to show the effectiveness of our approach while navigating in highly dynamic cluttered environments.

arxiv情報

著者 Xiyu Fan,Minghao Lu,Bowen Xu,Peng Lu
発行日 2025-03-18 15:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Flying in Highly Dynamic Environments with End-to-end Learning Approach はコメントを受け付けていません

Manual, Semi or Fully Autonomous Flipper Control? A Framework for Fair Comparison

要約

フリッパーベースのスキッドステアロボットを制御するための既存の半自律的な方法のパフォーマンスを調査しました。
私たちの研究には、これらの方法の公正な比較の再実装が含まれ、現在の最先端のアプローチの間で説得力のあるトレードオフを提供する新しい半自律制御ポリシーを紹介します。
また、認知負荷と横断品質を評価するための新しいメトリックを提案し、記録されたデータから品質ロードグラフを生成するためのベンチマークインターフェイスを提供します。
2D品質のロードスペースで提示された結果は、新しい制御ポリシーが自律的な制御方法と手動制御方法のギャップを効果的に橋渡しすることを示しています。
さらに、6つの自由度すべてを完全に手動で継続的に制御することで、経験豊富なオペレーターが第三者ビューから適切に設計されたアナログコントローラーで実行した場合、非常に効果的なままであることを明らかにします。

要約(オリジナル)

We investigated the performance of existing semi- and fully autonomous methods for controlling flipper-based skid-steer robots. Our study involves reimplementation of these methods for fair comparison and it introduces a novel semi-autonomous control policy that provides a compelling trade-off among current state-of-the-art approaches. We also propose new metrics for assessing cognitive load and traversal quality and offer a benchmarking interface for generating Quality-Load graphs from recorded data. Our results, presented in a 2D Quality-Load space, demonstrate that the new control policy effectively bridges the gap between autonomous and manual control methods. Additionally, we reveal a surprising fact that fully manual, continuous control of all six degrees of freedom remains highly effective when performed by an experienced operator on a well-designed analog controller from third person view.

arxiv情報

著者 Valentýn Číhala,Martin Pecka,Tomáš Svoboda,Karel Zimmermann
発行日 2025-03-18 16:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Manual, Semi or Fully Autonomous Flipper Control? A Framework for Fair Comparison はコメントを受け付けていません

Safe Interval Motion Planning for Quadrotors in Dynamic Environments

要約

動的環境での軌跡の生成は、特に空間的領域の非概念性のため、四重装置にとって重要な課題を提示します。
多くの既存の方法は、簡素化された静的環境を想定するか、リアルタイムで最適なソリューションを作成するのに苦労しています。
この作業では、動的環境でのナビゲーションのための効率的な安全なインターバルモーションプランニングフレームワークを提案します。
安全な間隔とは、特定の構成が安全な時間枠を指します。
私たちのアプローチは、2段階のプロセスを通じて軌跡の生成に対処します。フロントエンドグラフ検索ステップに続いて、バックエンド勾配ベースの最適化が続きます。
動的接続された可視性グラフを構築し、安全な間隔と時間的回廊内に低い次数の動的境界を組み込むことにより、完全性と最適性を確保します。
局所的な最小値を回避するために、空間的トポロジーの等価性を完全に評価するために、均一な時間的視認性変形(UTVD)を提案します。
Bスプライン曲線を使用した軌跡を表し、勾配ベースの最適化を適用して、空間的廊下内の静的および移動障害物を操作します。
シミュレーションと現実世界の実験を通じて、私たちの方法は、密度レベルが異なる環境で95%を超える成功率を達成し、他のアプローチのパフォーマンスを超えて、非常に動的な環境での実用的な展開の可能性を実証できることを示しています。

要約(オリジナル)

Trajectory generation in dynamic environments presents a significant challenge for quadrotors, particularly due to the non-convexity in the spatial-temporal domain. Many existing methods either assume simplified static environments or struggle to produce optimal solutions in real-time. In this work, we propose an efficient safe interval motion planning framework for navigation in dynamic environments. A safe interval refers to a time window during which a specific configuration is safe. Our approach addresses trajectory generation through a two-stage process: a front-end graph search step followed by a back-end gradient-based optimization. We ensure completeness and optimality by constructing a dynamic connected visibility graph and incorporating low-order dynamic bounds within safe intervals and temporal corridors. To avoid local minima, we propose a Uniform Temporal Visibility Deformation (UTVD) for the complete evaluation of spatial-temporal topological equivalence. We represent trajectories with B-Spline curves and apply gradient-based optimization to navigate around static and moving obstacles within spatial-temporal corridors. Through simulation and real-world experiments, we show that our method can achieve a success rate of over 95% in environments with different density levels, exceeding the performance of other approaches, demonstrating its potential for practical deployment in highly dynamic environments.

arxiv情報

著者 Songhao Huang,Yuwei Wu,Yuezhan Tao,Vijay Kumar
発行日 2025-03-18 16:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Safe Interval Motion Planning for Quadrotors in Dynamic Environments はコメントを受け付けていません

Flying through Moving Gates without Full State Estimation

要約

自律的なドローンレースには、強力な認識、計画、および制御が必要であり、自律的でアジャイルな飛行のベンチマークとテストフィールドになりました。
既存の作業では、通常、既知のマップを備えた静的レーストラックを想定しています。これにより、特定のレーストラックと運用環境のために、状態推定またはトレーニング学習ベースの方法のために、視覚inertial筋臭測定(VIO)のドリフトを減らすために、ゲートにローカリゼーションを実行し、ゲートにローカリゼーションを実行します。
対照的に、災害対応や配送などの多くの現実世界のタスクは、未知の動的環境で実行する必要があります。
目に見えない環境や移動門に対してドローンレースをより堅牢にするために、レーストラックマップやヴィオなしで動作するコントロールアルゴリズムを提案します。
この目的のために、比例航法の法則(PN)を採用して、ゲートの動きや風にもかかわらず、門を正確に飛行します。
制約された最適化問題としてドローンレースのPNに基づいた視力ベースの制御問題を策定し、閉じた形式の最適ソリューションを導き出します。
シミュレーションと現実世界の実験を通じて、アルゴリズムは、異なるゲートの動き、モデルエラー、風、遅延に堅牢である一方で、高速で移動するゲートをナビゲートできることを実証します。

要約(オリジナル)

Autonomous drone racing requires powerful perception, planning, and control and has become a benchmark and test field for autonomous, agile flight. Existing work usually assumes static race tracks with known maps, which enables offline planning of time-optimal trajectories, performing localization to the gates to reduce the drift in visual-inertial odometry (VIO) for state estimation or training learning-based methods for the particular race track and operating environment. In contrast, many real-world tasks like disaster response or delivery need to be performed in unknown and dynamic environments. To make drone racing more robust against unseen environments and moving gates, we propose a control algorithm that operates without a race track map or VIO, relying solely on monocular measurements of the line of sight to the gates. For this purpose, we adopt the law of proportional navigation (PN) to accurately fly through the gates despite gate motions or wind. We formulate the PN-informed vision-based control problem for drone racing as a constrained optimization problem and derive a closed-form optimal solution. Through simulations and real-world experiments, we demonstrate that our algorithm can navigate through moving gates at high speeds while being robust to different gate movements, model errors, wind, and delays.

arxiv情報

著者 Ralf Römer,Tim Emmert,Angela P. Schoellig
発行日 2025-03-18 17:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Flying through Moving Gates without Full State Estimation はコメントを受け付けていません

C(NN)FD — Deep Learning Modelling of Multi-Stage Axial Compressors Aerodynamics

要約

科学機械学習の分野とCFDなどの数値分析への応用は、最近関心の急増を経験しています。
その生存率は異なるドメインで実証されていますが、ターボチャイナリー分野の産業用途で実用的にするためのレベルの堅牢性とスケーラビリティにまだ達していません。
ガスタービン用途向けの多段階軸コンプレッサーの非常に複雑で、乱流、3次元の流れは、非常に困難なケースを表しています。
これは、幾何学的変数および運用変数からのフローフィールドの回帰の高次元性と、CFDドメインの大規模に関連する高い計算コストによるものです。
このペーパーでは、フローフィールドの予測と多段階の軸コンプレッサーの空力性能の予測のための一般化された深い学習フレームワークの開発と応用を示しています。
物理ベースの次元削減により、大規模なドメインのフローフィールド予測の可能性が解き放たれ、回帰問題が構造化されていないものから構造化されたものに再構築されます。
関連する物理方程式は、多次元の物理的損失関数を定義するために使用されます。
「ブラックボックス」アプローチと比較して、提案されたフレームワークには、対応する空力ドライバーを0D/1D/2D/3Dレベルで特定できるため、全体的なパフォーマンスの物理的に説明可能な予測の利点があります。
反復アーキテクチャが採用されており、予測の精度を改善し、関連する不確実性を推定します。
このモデルは、製造および構築のバリエーション、さまざまな形状、コンプレッサー設計、動作条件など、一連のデータセットでトレーニングされています。
これは、ベンチマークに匹敵する精度で、一般化可能な方法でフローフィールドと全体的なパフォーマンスを予測する能力を示しています。

要約(オリジナル)

The field of scientific machine learning and its applications to numerical analyses such as CFD has recently experienced a surge in interest. While its viability has been demonstrated in different domains, it has not yet reached a level of robustness and scalability to make it practical for industrial applications in the turbomachinery field. The highly complex, turbulent, and three-dimensional flows of multi-stage axial compressors for gas turbine applications represent a remarkably challenging case. This is due to the high-dimensionality of the regression of the flow-field from geometrical and operational variables, and the high computational cost associated with the large scale of the CFD domains. This paper demonstrates the development and application of a generalized deep learning framework for predictions of the flow field and aerodynamic performance of multi-stage axial compressors, also potentially applicable to any type of turbomachinery. A physics-based dimensionality reduction unlocks the potential for flow-field predictions for large-scale domains, re-formulating the regression problem from an unstructured to a structured one. The relevant physical equations are used to define a multi-dimensional physical loss function. Compared to ‘black-box’ approaches, the proposed framework has the advantage of physically explainable predictions of overall performance, as the corresponding aerodynamic drivers can be identified on a 0D/1D/2D/3D level. An iterative architecture is employed, improving the accuracy of the predictions, as well as estimating the associated uncertainty. The model is trained on a series of dataset including manufacturing and build variations, different geometries, compressor designs and operating conditions. This demonstrates the capability to predict the flow-field and the overall performance in a generalizable manner, with accuracy comparable to the benchmark.

arxiv情報

著者 Giuseppe Bruni,Sepehr Maleki,Senthil K Krishnababu
発行日 2025-03-18 15:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.flu-dyn | C(NN)FD — Deep Learning Modelling of Multi-Stage Axial Compressors Aerodynamics はコメントを受け付けていません

Evaluating Machine Learning Approaches for ASCII Art Generation

要約

計算技術を使用して構造化されたASCIIアートを生成するには、審美的な表現と計算精度の間の慎重な相互作用が必要であり、視覚情報をシンボリックテキスト文字に効果的に変換できるモデルが必要です。
畳み込みニューラルネットワーク(CNN)はこのドメインで有望を示していますが、ディープラーニングアーキテクチャと古典的な機械学習方法の比較パフォーマンスは未踏のままです。
このペーパーでは、現代のMLおよびDLメソッドの適用を調査して、構造化されたASCII ARTを生成し、忠実度、キャラクター分類の精度、および出力品質の3つの重要な基準に焦点を当てています。
ランダムフォレスト、サポートベクターマシン(SVM)、K-nearest Neighbors(K-NN)などの古典的なアプローチとともに、多層パーセプロン(MLPS)、ResNet、MobileNETV2を含む深い学習アーキテクチャを調査します。
私たちの結果は、複雑なニューラルネットワークアーキテクチャが高品質のASCIIアートを生産するのに不足しているのに対し、単純さにもかかわらず、古典的な機械学習分類器はCNNと同様のパフォーマンスを達成することを示しています。
私たちの調査結果は、出力品質を備えたモデルモデルのシンプルさのブリッジングにおける古典的な方法の強さを強調し、低次元の画像データのASCIIアート統合と機械学習に関する新しい洞察を提供します。

要約(オリジナル)

Generating structured ASCII art using computational techniques demands a careful interplay between aesthetic representation and computational precision, requiring models that can effectively translate visual information into symbolic text characters. Although Convolutional Neural Networks (CNNs) have shown promise in this domain, the comparative performance of deep learning architectures and classical machine learning methods remains unexplored. This paper explores the application of contemporary ML and DL methods to generate structured ASCII art, focusing on three key criteria: fidelity, character classification accuracy, and output quality. We investigate deep learning architectures, including Multilayer Perceptrons (MLPs), ResNet, and MobileNetV2, alongside classical approaches such as Random Forests, Support Vector Machines (SVMs) and k-Nearest Neighbors (k-NN), trained on an augmented synthetic dataset of ASCII characters. Our results show that complex neural network architectures often fall short in producing high-quality ASCII art, whereas classical machine learning classifiers, despite their simplicity, achieve performance similar to CNNs. Our findings highlight the strength of classical methods in bridging model simplicity with output quality, offering new insights into ASCII art synthesis and machine learning on image data with low dimensionality.

arxiv情報

著者 Sai Coumar,Zachary Kingston
発行日 2025-03-18 16:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.LG | Evaluating Machine Learning Approaches for ASCII Art Generation はコメントを受け付けていません

Optimizing High-Dimensional Oblique Splits

要約

直交するスプリットの木はうまく機能しますが、証拠は、斜めの分裂がパフォーマンスを向上させることができることを示唆しています。
このペーパーでは、$ \ {(\ vec {w}、\ vec {w}^{\ top} \ boldsymbol {x} _ {i}):i \ in \ {1、\ dots、n \ ve}、\ vec {w} \ vec {w} \ vec {i})から高次元$ s $ -sparse斜めの分裂を最適化する
\ mathbb {r}^p、\ |
\ vec {w} \ | _ {2} = 1、\ |
\ vec {w} \ | _ {0} \ leq s \} $の斜めの木のための$。$ s $はユーザー定義のスパースパラメーターです。
SIDコンバージェンスと$ S_0 $ -SPARSEの斜めの分割と$ S_0 \ GE 1 $での接続を確立し、SID関数クラスが$ S_0 $が増加するにつれて拡大することを示し、$ S_0 $ -Dimensional XOR機能などのより複雑なデータ生成関数をキャプチャできるようにします。
したがって、$ s_0 $は、基礎となるデータ生成関数の未知の潜在的な複雑さを表します。
これらの複雑な関数を学習するには、$ s \ geq s_0 $およびより大きな計算リソースを備えた$ s $ -sparse斜めツリーが必要です。
これは、$ s_0 $に応じてSID関数のクラスサイズと計算コストに準拠する統計的精度とのトレードオフを強調します。
対照的に、以前の研究では、$ S_0 = S = 1 $を使用した直交分割を使用したSID収束の問題を調査しました。
さらに、最適化された斜めの分割と直交分裂をランダムな森林に統合する斜めの木の実用的なフレームワークを紹介します。
提案されたアプローチは、シミュレーションと実質実験を通じて評価され、そのパフォーマンスをさまざまな斜めツリーモデルと比較します。

要約(オリジナル)

Orthogonal-split trees perform well, but evidence suggests oblique splits can enhance their performance. This paper explores optimizing high-dimensional $s$-sparse oblique splits from $\{(\vec{w}, \vec{w}^{\top}\boldsymbol{X}_{i}) : i\in \{1,\dots, n\}, \vec{w} \in \mathbb{R}^p, \| \vec{w} \|_{2} = 1, \| \vec{w} \|_{0} \leq s \}$ for growing oblique trees, where $ s $ is a user-defined sparsity parameter. We establish a connection between SID convergence and $s_0$-sparse oblique splits with $s_0\ge 1$, showing that the SID function class expands as $s_0$ increases, enabling the capture of more complex data-generating functions such as the $s_0$-dimensional XOR function. Thus, $s_0$ represents the unknown potential complexity of the underlying data-generating function. Learning these complex functions requires an $s$-sparse oblique tree with $s \geq s_0$ and greater computational resources. This highlights a trade-off between statistical accuracy, governed by the SID function class size depending on $s_0$, and computational cost. In contrast, previous studies have explored the problem of SID convergence using orthogonal splits with $ s_0 = s = 1 $, where runtime was less critical. Additionally, we introduce a practical framework for oblique trees that integrates optimized oblique splits alongside orthogonal splits into random forests. The proposed approach is assessed through simulations and real-data experiments, comparing its performance against various oblique tree models.

arxiv情報

著者 Chien-Ming Chi
発行日 2025-03-18 16:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH | Optimizing High-Dimensional Oblique Splits はコメントを受け付けていません

On the clustering behavior of sliding windows

要約

スライドウィンドウで前処理されたタイムリーのクラスタリングデータをクラスタリングすると、事態は壮観に間違っています。
ウィンドウのサイズがTimeseriesの長さとどのように比較されるかに応じて、出現する3つの驚くべき障害を強調します。
計算例に加えて、これらの各障害モードの理論的説明を提示します。

要約(オリジナル)

Things can go spectacularly wrong when clustering timeseries data that has been preprocessed with a sliding window. We highlight three surprising failures that emerge depending on how the window size compares with the timeseries length. In addition to computational examples, we present theoretical explanations for each of these failure modes.

arxiv情報

著者 Boris Alexeev,Wenyan Luo,Dustin G. Mixon,Yan X Zhang
発行日 2025-03-18 16:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | On the clustering behavior of sliding windows はコメントを受け付けていません

Unsynchronized Decentralized Q-Learning: Two Timescale Analysis By Persistence

要約

非定常性は、マルチエージェント強化学習(MARL)の基本的な課題であり、エージェントが学習中に行動を更新します。
MARLの多くの理論的進歩は、エージェントがポリシーを修正することが許可されている同期時間を含む、さまざまな方法でエージェントのポリシー更新を調整することにより、非定常性の課題を回避します。
同期により、マルチタイムスケールメソッドを介した多くのMARLアルゴリズムの分析が可能になりますが、多くの分散型アプリケーションではそのような同期は実行不可能です。
この論文では、確率的ゲームの最近のMARLアルゴリズムである分散型Qラーニングアルゴリズムの非同期化されていないバリアントを研究します。
非物語化されていないアルゴリズムが再生を駆動する十分な条件を提供します。
当社のソリューションは、Qファクターアップデートで一定の学習率を利用しています。これは、以前の作業の同期仮定を緩和するために重要であることを示しています。
私たちの分析は、後悔のテストの伝統からの他の多くのアルゴリズムの非物語化されていない一般化にも適用されます。そのパフォーマンスは、ポリシー更新ダイナミクスを介して得られたマルコフチェーンを調べるマルチタイムスケール方法によって分析されます。
この作業は、分散型Q学習アルゴリズムとその親sの適用性を、パラメーターが独立した方法で選択される設定に拡張し、以前の作業の調整仮定を課すことなく非定常性を飼いならします。

要約(オリジナル)

Non-stationarity is a fundamental challenge in multi-agent reinforcement learning (MARL), where agents update their behaviour as they learn. Many theoretical advances in MARL avoid the challenge of non-stationarity by coordinating the policy updates of agents in various ways, including synchronizing times at which agents are allowed to revise their policies. Synchronization enables analysis of many MARL algorithms via multi-timescale methods, but such synchronization is infeasible in many decentralized applications. In this paper, we study an unsynchronized variant of the decentralized Q-learning algorithm, a recent MARL algorithm for stochastic games. We provide sufficient conditions under which the unsynchronized algorithm drives play to equilibrium with high probability. Our solution utilizes constant learning rates in the Q-factor update, which we show to be critical for relaxing the synchronization assumptions of earlier work. Our analysis also applies to unsynchronized generalizations of a number of other algorithms from the regret testing tradition, whose performance is analyzed by multi-timescale methods that study Markov chains obtained via policy update dynamics. This work extends the applicability of the decentralized Q-learning algorithm and its relatives to settings in which parameters are selected in an independent manner, and tames non-stationarity without imposing the coordination assumptions of prior work.

arxiv情報

著者 Bora Yongacoglu,Gürdal Arslan,Serdar Yüksel
発行日 2025-03-18 16:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.MA | Unsynchronized Decentralized Q-Learning: Two Timescale Analysis By Persistence はコメントを受け付けていません

Memorization and Regularization in Generative Diffusion Models

要約

拡散モデルは、生成モデリングの強力なフレームワークとして浮上しています。
方法論の中心にあるのは、スコアマッチングです。さまざまなスケールでのデータ分布の騒々しいバージョンのログデンシティファミリーの勾配を学習します。
スコアマッチングで採用された損失関数が、人口損失ではなく経験的データを使用して評価される場合、ミニマイザーは時間依存のガウス混合のスコアに対応します。
ただし、この分析的に扱いやすいミニマイザーの使用は、データの記憶につながります。無条件と条件付き設定の両方で、生成モデルはトレーニングサンプルを返します。
この論文には、暗記の根底にある動的メカニズムの分析が含まれています。
分析は、分析的に扱いやすいミニマイザーの再現を避けるために正則化の必要性を強調しています。
そして、そうすることで、正規化する方法の原則的な理解の基礎を築きます。
数値実験では、以下の特性を調査します。(i)Tikhonovの正則化。
(ii)漸近の一貫性を促進するように設計された正則化。
(iii)ニューラルネットワークのアンダーパラメータ化またはニューラルネットワークをトレーニングする際に早期に停止することにより誘発される正則化。
これらの実験は、暗記の文脈で評価され、正規化の将来の開発の方向性が強調されています。

要約(オリジナル)

Diffusion models have emerged as a powerful framework for generative modeling. At the heart of the methodology is score matching: learning gradients of families of log-densities for noisy versions of the data distribution at different scales. When the loss function adopted in score matching is evaluated using empirical data, rather than the population loss, the minimizer corresponds to the score of a time-dependent Gaussian mixture. However, use of this analytically tractable minimizer leads to data memorization: in both unconditioned and conditioned settings, the generative model returns the training samples. This paper contains an analysis of the dynamical mechanism underlying memorization. The analysis highlights the need for regularization to avoid reproducing the analytically tractable minimizer; and, in so doing, lays the foundations for a principled understanding of how to regularize. Numerical experiments investigate the properties of: (i) Tikhonov regularization; (ii) regularization designed to promote asymptotic consistency; and (iii) regularizations induced by under-parameterization of a neural network or by early stopping when training a neural network. These experiments are evaluated in the context of memorization, and directions for future development of regularization are highlighted.

arxiv情報

著者 Ricardo Baptista,Agnimitra Dasgupta,Nikola B. Kovachki,Assad Oberai,Andrew M. Stuart
発行日 2025-03-18 16:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS, math.OC | Memorization and Regularization in Generative Diffusion Models はコメントを受け付けていません