Decision-Dependent Stochastic Optimization: The Role of Distribution Dynamics

要約

分布シフトは、意思決定者が対抗または適合すべき厄介な外部力と長い間見ていました。
決定依存と呼ばれる興味深いフィードバック現象は、展開された決定が環境に影響を及ぼし、データを生成する分布を変えるときに発生します。
パフォーマンス予測の領域では、これは戦略的行動による決定によってパラメーター化された分布マップによってエンコードされます。
対照的に、進化する分布を決定と結びつける非線形ダイナミクスを特徴とするフィードバックプロセスとして、内生分布シフトを正式にします。
このダイナミックレジームでの確率的最適化は、複合問題構造でダイナミクスが果たすさまざまな役割を調べるための肥沃な地面を提供します。
この目的のために、動的分布に適応して形成することにより、最適な意思決定を達成するオンラインアルゴリズムを開発します。
論文全体で、分布の視点を採用し、このビューが分布ダイナミクスの特性と提案されたアルゴリズムの最適性と一般化パフォーマンスをどのように促進するかを実証します。
理論的結果を意見のダイナミクスコンテキストで紹介します。このコンテキストでは、日和見パーティが動的偏光集団の親和性を最大化し、推奨システムシナリオで、単純な確率で離散分布を伴うパフォーマンスの最適化を特徴としています。

要約(オリジナル)

Distribution shifts have long been regarded as troublesome external forces that a decision-maker should either counteract or conform to. An intriguing feedback phenomenon termed decision dependence arises when the deployed decision affects the environment and alters the data-generating distribution. In the realm of performative prediction, this is encoded by distribution maps parameterized by decisions due to strategic behaviors. In contrast, we formalize an endogenous distribution shift as a feedback process featuring nonlinear dynamics that couple the evolving distribution with the decision. Stochastic optimization in this dynamic regime provides a fertile ground to examine the various roles played by dynamics in the composite problem structure. To this end, we develop an online algorithm that achieves optimal decision-making by both adapting to and shaping the dynamic distribution. Throughout the paper, we adopt a distributional perspective and demonstrate how this view facilitates characterizations of distribution dynamics and the optimality and generalization performance of the proposed algorithm. We showcase the theoretical results in an opinion dynamics context, where an opportunistic party maximizes the affinity of a dynamic polarized population, and in a recommender system scenario, featuring performance optimization with discrete distributions in the probability simplex.

arxiv情報

著者 Zhiyu He,Saverio Bolognani,Florian Dörfler,Michael Muehlebach
発行日 2025-03-10 13:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC | Decision-Dependent Stochastic Optimization: The Role of Distribution Dynamics はコメントを受け付けていません

Non-vacuous Generalization Bounds for Deep Neural Networks without any modification to the trained models

要約

数百万または数十億のパラメーターを備えたディープニューラルネットワーク(NN)は、有限のトレーニングセットからトレーニングされた後、目に見えないデータで非常にうまく機能します。
NNSのこのような優れた能力を説明するために、さまざまな以前の理論が開発されていますが、テストエラーに意味のあるバウンドを提供しません。
PACベイと相互情報に基づいたいくつかの最近の理論は、vacuousなものではないため、NNSの優れたパフォーマンスを説明する大きな可能性を示しています。
ただし、多くの場合、関心のある訓練されたモデルに対する厳しい仮定と広範な修正(たとえば、圧縮、量子化)が必要です。
したがって、これらの以前の理論は、変更されたバージョンのみの保証を提供します。
この論文では、モデルのテストエラーに関する2つの新しい境界線を提案します。
私たちの境界はトレーニングセットのみを使用しており、モデルの変更は必要ありません。
これらの境界は、Imagenetデータセット上のPytorchによって前処理された最新のNNSの大規模なクラスで検証されており、vacuousです。
私たちの知る限り、これらは、この大規模なモデルを変更することはありません。

要約(オリジナル)

Deep neural network (NN) with millions or billions of parameters can perform really well on unseen data, after being trained from a finite training set. Various prior theories have been developed to explain such excellent ability of NNs, but do not provide a meaningful bound on the test error. Some recent theories, based on PAC-Bayes and mutual information, are non-vacuous and hence show a great potential to explain the excellent performance of NNs. However, they often require a stringent assumption and extensive modification (e.g. compression, quantization) to the trained model of interest. Therefore, those prior theories provide a guarantee for the modified versions only. In this paper, we propose two novel bounds on the test error of a model. Our bounds uses the training set only and require no modification to the model. Those bounds are verified on a large class of modern NNs, pretrained by Pytorch on the ImageNet dataset, and are non-vacuous. To the best of our knowledge, these are the first non-vacuous bounds at this large scale, without any modification to the pretrained models.

arxiv情報

著者 Khoat Than,Dat Phan
発行日 2025-03-10 13:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Non-vacuous Generalization Bounds for Deep Neural Networks without any modification to the trained models はコメントを受け付けていません

Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis

要約

材料学習の機械学習は、特に社内の実験では、合成データを生成することは費用がかかり、時間がかかるため、実験データが限られているため課題に直面しています。
既存の文献からのマイニングデータは、データの品質、一貫性のない形式、実験パラメーターの報告の変動などの問題を導入し、学習アルゴリズムの一貫した機能の作成を複雑にします。
さらに、連続的な機能と個別の機能を組み合わせることで、データが限られたデータと学習プロセスを妨げる可能性があります。
ここでは、既存の文献からまとめられたグラフェン化学蒸気堆積合成の限られた不均一なデータセットで、大きな言語モデル(LLMS)を利用して機械学習性能を強化する戦略を提案します。
これらの戦略には、欠落データポイントを帰属させるためのモダリティを促し、大規模な言語モデルの埋め込みを活用して、化学蒸気堆積実験で報告された基質の複雑な命名法をコードすることが含まれます。
提案された戦略は、サポートベクターマシン(SVM)モデルを使用したグラフェン層の分類を強化し、39%から65%にバイナリ分類精度を増加させ、52%から72%に3成分精度を高めます。
SVMとGPT-4モデルのパフォーマンスを比較します。これは、同じデータで訓練され、微調整されています。
私たちの結果は、数値分類器がLLM駆動型のデータ強化と組み合わせると、スタンドアロンLLM予測子よりも優れていることを示しており、データスカルスシナリオでは、LLM戦略での予測学習を改善するには、データセットの単純な微調整以上のものが必要であることを強調しています。
代わりに、最適なパフォーマンスを実現するために、データ代入と特徴空間の均質化のための洗練されたアプローチが必要です。
提案された戦略は、データ強化技術を強調し、希少で不均一なデータセットの機械学習性能を改善するための広く適用可能なフレームワークを提供します。

要約(オリジナル)

Machine learning in materials science faces challenges due to limited experimental data, as generating synthesis data is costly and time-consuming, especially with in-house experiments. Mining data from existing literature introduces issues like mixed data quality, inconsistent formats, and variations in reporting experimental parameters, complicating the creation of consistent features for the learning algorithm. Additionally, combining continuous and discrete features can hinder the learning process with limited data. Here, we propose strategies that utilize large language models (LLMs) to enhance machine learning performance on a limited, heterogeneous dataset of graphene chemical vapor deposition synthesis compiled from existing literature. These strategies include prompting modalities for imputing missing data points and leveraging large language model embeddings to encode the complex nomenclature of substrates reported in chemical vapor deposition experiments. The proposed strategies enhance graphene layer classification using a support vector machine (SVM) model, increasing binary classification accuracy from 39% to 65% and ternary accuracy from 52% to 72%. We compare the performance of the SVM and a GPT-4 model, both trained and fine-tuned on the same data. Our results demonstrate that the numerical classifier, when combined with LLM-driven data enhancements, outperforms the standalone LLM predictor, highlighting that in data-scarce scenarios, improving predictive learning with LLM strategies requires more than simple fine-tuning on datasets. Instead, it necessitates sophisticated approaches for data imputation and feature space homogenization to achieve optimal performance. The proposed strategies emphasize data enhancement techniques, offering a broadly applicable framework for improving machine learning performance on scarce, inhomogeneous datasets.

arxiv情報

著者 Devi Dutta Biswajeet,Sara Kadkhodaei
発行日 2025-03-10 14:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.comp-ph | Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis はコメントを受け付けていません

Score-informed Music Source Separation: Improving Synthetic-to-real Generalization in Classical Music

要約

音楽ソースの分離は、楽器の混合物を構成トラックに分離するタスクです。
音楽ソース分離モデルは通常、オーディオデータのみを使用してトレーニングされますが、モデルの分離機能を改善するために追加情報を使用できます。
このホワイトペーパーでは、音楽ソースの分離を支援するために音楽スコアを使用する2つの方法を提案します。スコアがモデルの入力としてオーディオ混合物のマグニチュードスペクトログラムと連結されたスコアに情報が付随するモデルと、スコアのみを使用して分離マスクを計算するモデルです。
Synthsodデータセットの合成データに関するモデルをトレーニングし、実際の録音で構成されるURMPおよびAalto Anechoic Orchestraデータセットのメソッドを評価します。
スコアに基づいたモデルは、ベースラインアプローチと比較して分離結果を改善しますが、合成のみのモデルから合成のみのモデルは合成のみの一般化の明確な改善を示しています。

要約(オリジナル)

Music source separation is the task of separating a mixture of instruments into constituent tracks. Music source separation models are typically trained using only audio data, although additional information can be used to improve the model’s separation capability. In this paper, we propose two ways of using musical scores to aid music source separation: a score-informed model where the score is concatenated with the magnitude spectrogram of the audio mixture as the input of the model, and a model where we use only the score to calculate the separation mask. We train our models on synthetic data in the SynthSOD dataset and evaluate our methods on the URMP and Aalto anechoic orchestra datasets, comprised of real recordings. The score-informed model improves separation results compared to a baseline approach, but struggles to generalize from synthetic to real data, whereas the score-only model shows a clear improvement in synthetic-to-real generalization.

arxiv情報

著者 Eetu Tunturi,David Diaz-Guerra,Archontis Politis,Tuomas Virtanen
発行日 2025-03-10 14:08:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS | Score-informed Music Source Separation: Improving Synthetic-to-real Generalization in Classical Music はコメントを受け付けていません

Materials Map Integrating Experimental and Computational Data through Graph-Based Machine Learning for Enhanced Materials Discovery

要約

材料科学とデータサイエンスの統合から生じる材料情報学(MI)は、材料の発見と開発を大幅に合理化することが期待されています。
MIに使用されるデータは、計算研究と実験的研究の両方から取得されますが、統合は依然として困難です。
以前の調査では、実験データセットに隠された傾向を計算データベースに保存された構成データにキャプチャする機械学習モデルを適用することにより、これらのデータセットの統合を報告しました。
この研究では、得られたデータを使用して、材料マップの構造の関係を視覚化する材料マップを構築し、実験的研究者による研究をサポートすることを目的としています。
このマップは、Matdeeplearn(MDL)フレームワークを使用して構築されており、マップ構造の材料構造、深い学習、および寸法削減のグラフベースの表現を実装しています。
統計分析を通じて得られた材料マップを評価し、メッセージ通過ニューラルネットワーク(MPNN)を使用してMDLが材料の構造的複雑さを反映する特徴を効率的に抽出できることを発見しました。
さらに、この利点は、必ずしも材料特性の予測における精度の向上につながるとは限らないことがわかりました。
この予期せぬ結果は、MPNNに固有の高学習パフォーマンスに起因するものであり、マテリアルマップ内のデータポイントの構造化に寄与する可能性があります。

要約(オリジナル)

Materials informatics (MI), which emerges from the integration of materials science and data science, is expected to greatly streamline the material discovery and development. The data used for MI are obtained from both computational and experimental studies, while their integration remains challenging. In our previous study, we reported the integration of these datasets by applying a machine learning model that captures trends hidden in the experimental datasets to compositional data stored in the computational database. In this study, we use the obtained data to construct materials maps, which visualize the relation in the structural features of materials, aiming to support study by the experimental researchers. The map is constructed using the MatDeepLearn (MDL) framework, which implements the graph-based representation of material structures, deep learning, and dimensional reduction for the map construction. We evaluate the obtained materials maps through statistical analysis and found that the MDL using message passing neural network (MPNN) enables efficient extraction of features that reflect the structural complexity of materials. Moreover, we found that this advantage does not necessarily translate into improved accuracy in predicting material properties. We attribute this unexpected outcome to the high learning performance inherent in MPNN, which can contribute to the structuring of data points within the materials map.

arxiv情報

著者 Yusuke Hashimoto,Xue Jia,Li Hao,Takaaki Toma
発行日 2025-03-10 14:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG | Materials Map Integrating Experimental and Computational Data through Graph-Based Machine Learning for Enhanced Materials Discovery はコメントを受け付けていません

Diagnostic-free onboard battery health assessment

要約

多様な使用パターンは、リチウムイオン電池の複雑で可変の老化行動を誘発し、正確な健康診断と予後を複雑にします。
多くの場合、個別の診断サイクルを使用して、以前の複雑な老化パターンからバッテリーの現在の健康状態を解きます。
ただし、これらの同じ診断サイクルは、バッテリーの劣化軌道を変化させ、時間を集めており、オンボードアプリケーションで実際に実行することはできません。
この作業では、オフラインの診断テストと履歴データの要件なしに、迅速なオンボードバッテリーの健康診断と予後を可能にするために、解釈可能な機械学習モデルと組み合わせて運用測定の一部を活用します。
エンコーダデコダーアーキテクチャ内に機械的制約を統合して、物理的に解釈可能な潜在空間で電極状態を抽出し、分解パスの再構築を改善できるようにします。
健康診断モデルのフレームワークは、わずかな微調整により、多様なアプリケーションの関心に柔軟に適用できます。
このモデルフレームワークは、異なる動作条件下で422個のセルで構成される3つのバッテリーサイクリングデータセットに適用し、解釈できない診断のないオンボードバッテリー診断と予後モデルの有用性を強調することにより、このモデルフレームワークの汎用性を実証します。

要約(オリジナル)

Diverse usage patterns induce complex and variable aging behaviors in lithium-ion batteries, complicating accurate health diagnosis and prognosis. Separate diagnostic cycles are often used to untangle the battery’s current state of health from prior complex aging patterns. However, these same diagnostic cycles alter the battery’s degradation trajectory, are time-intensive, and cannot be practically performed in onboard applications. In this work, we leverage portions of operational measurements in combination with an interpretable machine learning model to enable rapid, onboard battery health diagnostics and prognostics without offline diagnostic testing and the requirement of historical data. We integrate mechanistic constraints within an encoder-decoder architecture to extract electrode states in a physically interpretable latent space and enable improved reconstruction of the degradation path. The health diagnosis model framework can be flexibly applied across diverse application interests with slight fine-tuning. We demonstrate the versatility of this model framework by applying it to three battery-cycling datasets consisting of 422 cells under different operating conditions, highlighting the utility of an interpretable diagnostic-free, onboard battery diagnosis and prognosis model.

arxiv情報

著者 Yunhong Che,Vivek N. Lam,Jinwook Rhyu,Joachim Schaeffer,Minsu Kim,Martin Z. Bazant,William C. Chueh,Richard D. Braatz
発行日 2025-03-10 14:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | Diagnostic-free onboard battery health assessment はコメントを受け付けていません

A Constraint-Preserving Neural Network Approach for Solving Mean-Field Games Equilibrium

要約

ニューラルネットワークベースの方法は、高次元平均フィールドゲーム(MFG)平衡を解決する際の有効性を実証していますが、数学的に一貫した密度結合進化を確保することは大きな課題です。
このホワイトペーパーでは、MKV FBSDEとMFG平衡の関連する固定点定式化を解決するために、プロセス正規化フロー(NF)と状態正規化時シリーズニューラルネットワークを統合するニューラルネットワークアプローチであるNF-MKVネットを提案します。
この方法は、最初にMFG平衡をMKV FBSDESとして再定式化し、確率的フレームワーク内の方程式係数に密度の進化を埋め込みます。
次に、ニューラルネットワークを採用して、値関数とその勾配を近似します。
体積不変性と時間的連続性を強制するために、NFアーキテクチャは各密度伝達関数に損失制約を課します。

要約(オリジナル)

Neural network-based methods have demonstrated effectiveness in solving high-dimensional Mean-Field Games (MFG) equilibria, yet ensuring mathematically consistent density-coupled evolution remains a major challenge. This paper proposes the NF-MKV Net, a neural network approach that integrates process-regularized normalizing flow (NF) with state-policy-connected time-series neural networks to solve MKV FBSDEs and their associated fixed-point formulations of MFG equilibria. The method first reformulates MFG equilibria as MKV FBSDEs, embedding density evolution into equation coefficients within a probabilistic framework. Neural networks are then employed to approximate value functions and their gradients. To enforce volumetric invariance and temporal continuity, NF architectures impose loss constraints on each density transfer function.

arxiv情報

著者 Jinwei Liu,Lu Ren,Wang Yao,Xiao Zhang
発行日 2025-03-10 14:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG, I.2.6 | A Constraint-Preserving Neural Network Approach for Solving Mean-Field Games Equilibrium はコメントを受け付けていません

Q-MARL: A quantum-inspired algorithm using neural message passing for large-scale multi-agent reinforcement learning

要約

量子化学の分子特性を予測するためのグラフベースの手法 – 3次元空間の分子内での原子の位置 – Q-Marlは、一般的な報酬やエージェントの注文のような強力な仮定を必要とする非常に大規模なマルチエージェント強化学習シナリオをサポートする完全に分散した学習アーキテクチャであるQ-Marlを提示します。
重要なのは、動的に変化すると推定される環境で、各エージェントを周囲のエージェントと比較して扱うことです。
したがって、各タイムステップで、エージェントはそれ自体の近所の中心であり、他の多くのエージェントの近隣でもあります。
各役割はサブグラフとして策定され、各サブグラフはトレーニングサンプルとして使用されます。
メッセージを通過するニューラルネットワークは、地元の近隣内でのフルスケールの頂点とエッジの相互作用をサポートし、サブグラフの深さを管理するパラメーターはトレーニングの負担を緩和します。
テスト中、エージェントのアクションは、それを含むすべてのサブグラフに局所的にアンサンスされており、堅牢な決定をもたらします。
他のアプローチが50のエージェントを管理するのに苦労している場合、Q-Marlは数千人を容易にマーシャルできます。
詳細な理論的分析は改善と収束を証明し、典型的な共同および競争的なシナリオを備えたシミュレーションは、トレーニングの速度を劇的に高速化し、トレーニング損失を減らします。

要約(オリジナル)

Inspired by a graph-based technique for predicting molecular properties in quantum chemistry — atoms’ position within molecules in three-dimensional space — we present Q-MARL, a completely decentralised learning architecture that supports very large-scale multi-agent reinforcement learning scenarios without the need for strong assumptions like common rewards or agent order. The key is to treat each agent as relative to its surrounding agents in an environment that is presumed to change dynamically. Hence, in each time step, an agent is the centre of its own neighbourhood and also a neighbour to many other agents. Each role is formulated as a sub-graph, and each sub-graph is used as a training sample. A message-passing neural network supports full-scale vertex and edge interaction within a local neighbourhood, while a parameter governing the depth of the sub-graphs eases the training burden. During testing, an agent’s actions are locally ensembled across all the sub-graphs that contain it, resulting in robust decisions. Where other approaches struggle to manage 50 agents, Q-MARL can easily marshal thousands. A detailed theoretical analysis proves improvement and convergence, and simulations with the typical collaborative and competitive scenarios show dramatically faster training speeds and reduced training losses.

arxiv情報

著者 Kha Vo,Chin-Teng Lin
発行日 2025-03-10 14:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Q-MARL: A quantum-inspired algorithm using neural message passing for large-scale multi-agent reinforcement learning はコメントを受け付けていません

ECNN: A Low-complex, Adjustable CNN for Industrial Pump Monitoring Using Vibration Data

要約

産業用ポンプは、製造、エネルギー生産、水処理など、さまざまなセクターの不可欠なコンポーネントであり、故障が財政的および安全性の大きなリスクを引き起こす可能性があります。
異常検出を使用して、これらのリスクを軽減し、信頼性を高めることができます。
この作業では、加速度センサーによってキャプチャされた振動データに基づいて産業ポンプの故障を予測するために、新規強化された畳み込みニューラルネットワーク(ECNN)を提案します。
畳み込みニューラルネットワーク(CNN)は、計算リソースが限られているエッジデバイスでの実装を可能にするために、低い複雑さに焦点を当てて設計されています。
したがって、複雑さと精度のトレードオフを満たすトポロジを見つけるために、詳細な設計スペース探索が実行されます。
さらに、未知のポンプへの適応を可能にするために、当社のアルゴリズムは、通常のデータサンプルの小さなセットによって決定できるポンプ固有のパラメーターを備えています。
最後に、ECNNをしきい値アプローチと組み合わせて、パフォーマンスをさらに向上させ、アプリケーション要件を満たします。
その結果、私たちの組み合わせたアプローチは、精度の点で従来の統計的アプローチと古典的なCNNを大幅に上回ります。
要約すると、この作業は、工業用ポンプの異常検出のための高精度を提供するために古典的な方法によって強化される、新しい、複合的なCNNベースのアルゴリズムを提供します。

要約(オリジナル)

Industrial pumps are essential components in various sectors, such as manufacturing, energy production, and water treatment, where their failures can cause significant financial and safety risks. Anomaly detection can be used to reduce those risks and increase reliability. In this work, we propose a novel enhanced convolutional neural network (ECNN) to predict the failure of an industrial pump based on the vibration data captured by an acceleration sensor. The convolutional neural network (CNN) is designed with a focus on low complexity to enable its implementation on edge devices with limited computational resources. Therefore, a detailed design space exploration is performed to find a topology satisfying the trade-off between complexity and accuracy. Moreover, to allow for adaptation to unknown pumps, our algorithm features a pump-specific parameter that can be determined by a small set of normal data samples. Finally, we combine the ECNN with a threshold approach to further increase the performance and satisfy the application requirements. As a result, our combined approach significantly outperforms a traditional statistical approach and a classical CNN in terms of accuracy. To summarize, this work provides a novel, low-complex, CNN-based algorithm that is enhanced by classical methods to offer high accuracy for anomaly detection of industrial pumps.

arxiv情報

著者 Jonas Ney,Norbert Wehn
発行日 2025-03-10 14:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | ECNN: A Low-complex, Adjustable CNN for Industrial Pump Monitoring Using Vibration Data はコメントを受け付けていません

PER-DPP Sampling Framework and Its Application in Path Planning

要約

インテリジェントモバイルシステムの自律的なナビゲーションは、人工知能駆動型のロボット工学の中でコアリサーチの焦点を表しています。
現代の経路計画は、動的な環境応答性と多目的タスクのスケーラビリティの制約に直面し、成長するインテリジェントな運用要件に対処する能力を制限します。
適応環境相互作用と自己最適化における独自の強みを活用する意思決定中心の強化学習フレームワークは、高度な制御システムの研究で顕著になりました。
この調査では、補強学習経験のリプレイメカニズムにおけるサンプルの均一性の課題に対処するための方法論的な改善を導入します。
ダイバーシティ評価のために決定因子ポイントプロセス(DPP)を組み込むことにより、適応選択プロトコルを使用してデュアル基準サンプリングフレームワークを開発します。
このアプローチは、アルゴリズムの相互運用性を維持しながら、従来の優先体験リプレイ(PER)システムの表現バイアスを解決し、動的な運用シナリオの決定最適化を改善します。
重要な貢献は次のとおりです。優先順位のシーケンスと多様性の最大化を組み合わせたハイブリッドサンプリングパラダイム(PER-DPP)を開発します。
2Dナビゲーションシナリオの比較シミュレーションは、弾性ステップサイズコンポーネントが一時的に初期収束速度を遅延させるが、DPPごとの統合により最終段階の最適化を相乗的に強化することを示しています。
合成された方法は、最適化された長さの効率と方向安定性を備えたナビゲーションパスを生成します。

要約(オリジナル)

Autonomous navigation in intelligent mobile systems represents a core research focus within artificial intelligence-driven robotics. Contemporary path planning approaches face constraints in dynamic environmental responsiveness and multi-objective task scalability, limiting their capacity to address growing intelligent operation requirements. Decision-centric reinforcement learning frameworks, capitalizing on their unique strengths in adaptive environmental interaction and self-optimization, have gained prominence in advanced control system research. This investigation introduces methodological improvements to address sample homogeneity challenges in reinforcement learning experience replay mechanisms. By incorporating determinant point processes (DPP) for diversity assessment, we develop a dual-criteria sampling framework with adaptive selection protocols. This approach resolves representation bias in conventional prioritized experience replay (PER) systems while preserving algorithmic interoperability, offering improved decision optimization for dynamic operational scenarios. Key contributions comprise: Develop a hybrid sampling paradigm (PER-DPP) combining priority sequencing with diversity maximization.Based on this,create an integrated optimization scheme (PER-DPP-Elastic DQN) merging diversity-aware sampling with adaptive step-size regulation. Comparative simulations in 2D navigation scenarios demonstrate that the elastic step-size component temporarily delays initial convergence speed but synergistically enhances final-stage optimization with PER-DPP integration. The synthesized method generates navigation paths with optimized length efficiency and directional stability.

arxiv情報

著者 Junzhe Wang
発行日 2025-03-10 14:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, math.OC | PER-DPP Sampling Framework and Its Application in Path Planning はコメントを受け付けていません