Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning

要約

Renforce Learning(RL)は、脚のロボットの安定した移動歩行を取得するのに大部分が効果的であることが証明されています。
ただし、障害のある目に見えない環境を堅牢にナビゲートできる制御アルゴリズムの設計は、四足運動内で進行中の問題のままです。
これに取り組むために、低レベルの移動ポリシーと高レベルのナビゲーションポリシーを備えた階層的アプローチを使用して、ナビゲーションタスクを解決するのが便利です。
重要なことに、高レベルのポリシーは、エージェントの経路に沿った動的障害に対して堅牢である必要があります。
この作業では、敵対的なRLパラダイムに従って、障害物を敵対的なエージェントとしてモデル化するトレーニングプロセスによって堅牢性を備えたナビゲーションポリシーを堅牢に及ぼす新しい方法を提案します。
重要なことに、トレーニングプロセスの信頼性を向上させるために、量子応答均衡に頼る敵対者の合理性を拘束し、その合理性にカリキュラムを置きます。
この方法は、量子応答敵対的補強学習(Hi-QARL)を介して階層ポリシーを呼び出しました。
私たちは、複数の障害を持つ目に見えないランダム化された迷路でそれをベンチマークすることにより、私たちの方法の堅牢性を示します。
実際のシナリオでの適用性を証明するために、私たちの方法は、シミュレーションのUnitreeGO1ロボットに適用されます。

要約(オリジナル)

Reinforcement Learning (RL) has proven largely effective in obtaining stable locomotion gaits for legged robots. However, designing control algorithms which can robustly navigate unseen environments with obstacles remains an ongoing problem within quadruped locomotion. To tackle this, it is convenient to solve navigation tasks by means of a hierarchical approach with a low-level locomotion policy and a high-level navigation policy. Crucially, the high-level policy needs to be robust to dynamic obstacles along the path of the agent. In this work, we propose a novel way to endow navigation policies with robustness by a training process that models obstacles as adversarial agents, following the adversarial RL paradigm. Importantly, to improve the reliability of the training process, we bound the rationality of the adversarial agent resorting to quantal response equilibria, and place a curriculum over its rationality. We called this method Hierarchical policies via Quantal response Adversarial Reinforcement Learning (Hi-QARL). We demonstrate the robustness of our method by benchmarking it in unseen randomized mazes with multiple obstacles. To prove its applicability in real scenarios, our method is applied on a Unitree GO1 robot in simulation.

arxiv情報

著者 Jose-Luis Holgado-Alvarez,Aryaman Reddi,Carlo D’Eramo
発行日 2025-03-14 14:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning はコメントを受け付けていません

A Real-World Energy Management Dataset from a Smart Company Building for Optimization and Machine Learning

要約

2018年から2023年までの6年間のスマート企業施設の監視から得られた大規模な現実世界のデータセットを提示します。データセットには、さまざまな施設エリアとコンポーネントからのエネルギー消費データ、太陽光発電システムからのエネルギー生産データ、熱および発電所の組み合わせ、加熱および冷却システムからの運用データ、および耐候性の耐候性データが含まれています。
施設全体に設置された測定センサーは、データセットに反映されている複数のサブメタリングレベルを持つ階層メーター構造で編成されています。
データセットには、72メートル、9熱計、気象観測所の測定データが含まれています。
ラベル付きの問題を含むさまざまな処理レベルでの生データと処理されたデータの両方が利用可能です。
この論文では、データセットを作成するために採用されているデータ収集と後処理について説明します。
データセットにより、最適化、モデリング、機械学習など、エネルギー管理のドメインに幅広い方法を適用して、建物の運用を最適化し、コストと炭素排出量を削減できます。

要約(オリジナル)

We present a large real-world dataset obtained from monitoring a smart company facility over the course of six years, from 2018 to 2023. The dataset includes energy consumption data from various facility areas and components, energy production data from a photovoltaic system and a combined heat and power plant, operational data from heating and cooling systems, and weather data from an on-site weather station. The measurement sensors installed throughout the facility are organized in a hierarchical metering structure with multiple sub-metering levels, which is reflected in the dataset. The dataset contains measurement data from 72 energy meters, 9 heat meters and a weather station. Both raw and processed data at different processing levels, including labeled issues, is available. In this paper, we describe the data acquisition and post-processing employed to create the dataset. The dataset enables the application of a wide range of methods in the domain of energy management, including optimization, modeling, and machine learning to optimize building operations and reduce costs and carbon emissions.

arxiv情報

著者 Jens Engel,Andrea Castellani,Patricia Wollstadt,Felix Lanfermann,Thomas Schmitt,Sebastian Schmitt,Lydia Fischer,Steffen Limmer,David Luttropp,Florian Jomrich,René Unger,Tobias Rodemann
発行日 2025-03-14 14:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | A Real-World Energy Management Dataset from a Smart Company Building for Optimization and Machine Learning はコメントを受け付けていません

NeuMC — a package for neural sampling for lattice field theories

要約

\ pytorchに基づいた\ texttt {neumc}ソフトウェアパッケージを、格子フィールド理論におけるニューラルサンプラーの研究を促進することを目的としています。
正規化フローに基づいたニューラルサンプラーは、モンテカルロシミュレーションのコンテキストでますます人気があり、ターゲット確率分布を効果的に近似できるため、マルコフ連鎖モンテカルロ法のいくつかの欠点を軽減できます。
私たちのパッケージは、2次元のフィールド理論用のこのようなサンプラーを作成するためのツールを提供します。

要約(オリジナル)

We present the \texttt{NeuMC} software package, based on \pytorch, aimed at facilitating the research on neural samplers in lattice field theories. Neural samplers based on normalizing flows are becoming increasingly popular in the context of Monte-Carlo simulations as they can effectively approximate target probability distributions, possibly alleviating some shortcomings of the Markov chain Monte-Carlo methods. Our package provides tools to create such samplers for two-dimensional field theories.

arxiv情報

著者 Piotr Bialas,Piotr Korcyl,Tomasz Stebel,Dawid Zapolski
発行日 2025-03-14 15:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG, hep-lat, J.2 | NeuMC — a package for neural sampling for lattice field theories はコメントを受け付けていません

A Review of DeepSeek Models’ Key Innovative Techniques

要約

DeepSeek-V3とDeepSeek-R1は、汎用タスクと推論のためのオープンソースの大規模言語モデル(LLMS)をリードしており、Openaiや人類のような企業の最先端のクローズドソースモデルに匹敵するパフォーマンスを達成しますが、トレーニングコストのほんの一部を必要とします。
Deepseekの成功の背後にある重要な革新的なテクニックを理解することは、LLM研究を進めるために重要です。
このホワイトペーパーでは、トランスアーキテクチャの改良、マルチヘッドの潜在的な注意や専門家の混合、マルチトークン予測などの革新、アルゴリズム、フレームワーク、ハードウェアの共同設計、罰金の相対的な政策最適化アルゴリスム、純粋な強化学習との間の微妙な栄養学習のトレーニングとの間での監督者の相対的な政策最適化のトレーニングとの訓練との訓練とのポストトレーニングでのトレーニングとのポストトレーニングなどの革新など、これらのモデルの顕著な有効性と効率性を促進するコアテクニックをレビューします。
強化学習。
さらに、いくつかの未解決の質問を特定し、この急速に進む分野での潜在的な研究機会を強調しています。

要約(オリジナル)

DeepSeek-V3 and DeepSeek-R1 are leading open-source Large Language Models (LLMs) for general-purpose tasks and reasoning, achieving performance comparable to state-of-the-art closed-source models from companies like OpenAI and Anthropic — while requiring only a fraction of their training costs. Understanding the key innovative techniques behind DeepSeek’s success is crucial for advancing LLM research. In this paper, we review the core techniques driving the remarkable effectiveness and efficiency of these models, including refinements to the transformer architecture, innovations such as Multi-Head Latent Attention and Mixture of Experts, Multi-Token Prediction, the co-design of algorithms, frameworks, and hardware, the Group Relative Policy Optimization algorithm, post-training with pure reinforcement learning and iterative training alternating between supervised fine-tuning and reinforcement learning. Additionally, we identify several open questions and highlight potential research opportunities in this rapidly advancing field.

arxiv情報

著者 Chengen Wang,Murat Kantarcioglu
発行日 2025-03-14 15:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Review of DeepSeek Models’ Key Innovative Techniques はコメントを受け付けていません

Reinforcement Learning with Verifiable Rewards: GRPO’s Effective Loss, Dynamics, and Success Amplification

要約

グループ相対ポリシー最適化(GRPO)が導入され、検証可能またはバイナリ報酬を使用してLLMSの推論能力を促進するためのDeepSeek R1モデルのトレーニングに成功裏に使用されました。
このペーパーでは、検証可能な報酬を備えたGRPOは、Cullback Leibler($ \ Mathsf {Kl} $)の正規化対照損失として書くことができることを示しています。
最適なGRPOポリシー$ \ PI_ {n} $は、バイナリ報酬の観点から明示的に表現できます。また、古いポリシー($ \ pi_ {n-1} $)および参照ポリシー$ \ pi_0 $の1次および2次統計。
このスキームを繰り返して、一連のポリシー$ \ pi_ {n} $を取得します。これにより、成功の確率$ p_n $を定量化できます。
ポリシーの成功の確率は、成功の初期確率$ p_0 $と正規化パラメーター$ \ beta $の$ \ mathsf {kl} $ reloliinizerに依存する関数の固定点に収束する再発を満たすことを示します。
固定点$ p^*$が$ p_0 $よりも大きいことが保証されていることを示しているため、GRPOがポリシーの成功の確率を効果的に増幅することを示しています。

要約(オリジナル)

Group Relative Policy Optimization (GRPO) was introduced and used successfully to train DeepSeek R1 models for promoting reasoning capabilities of LLMs using verifiable or binary rewards. We show in this paper that GRPO with verifiable rewards can be written as a Kullback Leibler ($\mathsf{KL}$) regularized contrastive loss, where the contrastive samples are synthetic data sampled from the old policy. The optimal GRPO policy $\pi_{n}$ can be expressed explicitly in terms of the binary reward, as well as the first and second order statistics of the old policy ($\pi_{n-1}$) and the reference policy $\pi_0$. Iterating this scheme, we obtain a sequence of policies $\pi_{n}$ for which we can quantify the probability of success $p_n$. We show that the probability of success of the policy satisfies a recurrence that converges to a fixed point of a function that depends on the initial probability of success $p_0$ and the regularization parameter $\beta$ of the $\mathsf{KL}$ regularizer. We show that the fixed point $p^*$ is guaranteed to be larger than $p_0$, thereby demonstrating that GRPO effectively amplifies the probability of success of the policy.

arxiv情報

著者 Youssef Mroueh
発行日 2025-03-14 15:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Reinforcement Learning with Verifiable Rewards: GRPO’s Effective Loss, Dynamics, and Success Amplification はコメントを受け付けていません

Hacking Cryptographic Protocols with Advanced Variational Quantum Attacks

要約

ここでは、凍結テントグラフィックプロトコルに変分量子攻撃アルゴリズム(VQAA)への改善されたアプローチを紹介します。
私たちの方法は、よく知られている暗号化アルゴリズムに堅牢な量子攻撃を提供します。
S-DES、S-AES、BlowFishなどの対称キープロトコルの攻撃のシミュレーションを実装しています。
たとえば、攻撃により、小さな8キットの量子コンピューターの古典的なシミュレーションが、ブルートフォース攻撃よりも24倍少ない反復の32ビットのブローフィッシュインスタンスの秘密キーを見つける方法を示します。
また、私たちの仕事は、S-DESやS-AESなどの軽量暗号の攻撃成功率の改善も示しています。
非対称キープロトコルやハッシュ機能など、対称的な暗号化を超えたさらなるアプリケーションについても説明します。
さらに、方法の潜在的な将来の改善についてもコメントします。
私たちの結果は、ノイズの多い中間スケール量子(NISQ)デバイスを使用した大規模な古典的な暗号プロトコルの脆弱性を評価し、量子サイバーセキュリティの将来の研究の段階を設定します。

要約(オリジナル)

Here we introduce an improved approach to Variational Quantum Attack Algorithms (VQAA) on crytographic protocols. Our methods provide robust quantum attacks to well-known cryptographic algorithms, more efficiently and with remarkably fewer qubits than previous approaches. We implement simulations of our attacks for symmetric-key protocols such as S-DES, S-AES and Blowfish. For instance, we show how our attack allows a classical simulation of a small 8-qubit quantum computer to find the secret key of one 32-bit Blowfish instance with 24 times fewer number of iterations than a brute-force attack. Our work also shows improvements in attack success rates for lightweight ciphers such as S-DES and S-AES. Further applications beyond symmetric-key cryptography are also discussed, including asymmetric-key protocols and hash functions. In addition, we also comment on potential future improvements of our methods. Our results bring one step closer assessing the vulnerability of large-size classical cryptographic protocols with Noisy Intermediate-Scale Quantum (NISQ) devices, and set the stage for future research in quantum cybersecurity.

arxiv情報

著者 Borja Aizpurua,Pablo Bermejo,Josu Etxezarreta Martinez,Roman Orus
発行日 2025-03-14 15:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, quant-ph | Hacking Cryptographic Protocols with Advanced Variational Quantum Attacks はコメントを受け付けていません

Zero-shot Imputation with Foundation Inference Models for Dynamical Systems

要約

通常の微分方程式(ODE)によって管理される動的システムは、膨大な数の自然現象のモデルとして機能します。
この作業では、根底にあるダイナミクスがODEによって決定されると想定される時系列データを欠落しているという古典的な問題について、新たな視点を提供します。
具体的には、償却された推論と神経演算子からのアイデアを再訪し、いくつかの(隠された)odeを満たすパラメトリック関数を通じて、ゼロショット時系列代入のための新しい監督された学習フレームワークを提案します。
私たちの提案は、2つのコンポーネントで構成されています。
第一に、ODEソリューション、観測時間、ノイズメカニズムの空間上の広範な確率分布。これにより、(隠された)ODEソリューションの大規模な合成データセットと、そのうるさくてまばらな観測値が生成されます。
第二に、生成された時系列を(隠された)ODEソリューションの初期条件と時間導関数のスペースにマッピングするために、オフラインでトレーニングされた神経認識モデル。
私たちは、それぞれが大きく異なる動的システムからサンプリングされた63個の異なる時系列にわたって、1つと同じ(前処理された)認識モデルがゼロショット代入を実行できることを経験的に実証します。
同様に、微調整を必要とせずに、人間の動き、大気質、交通、電気の研究、およびナビエ・ストークスシミュレーションにまたがる10の非常に異なる設定で、欠落している高次元データのゼロショット代入を実行できることを実証します。
さらに、私たちの提案はしばしば、ターゲットデータセットでトレーニングされている最先端の方法よりも優れています。
当社の事前に守られたモデル、リポジトリ、チュートリアルはオンラインで入手できます。

要約(オリジナル)

Dynamical systems governed by ordinary differential equations (ODEs) serve as models for a vast number of natural and social phenomena. In this work, we offer a fresh perspective on the classical problem of imputing missing time series data, whose underlying dynamics are assumed to be determined by ODEs. Specifically, we revisit ideas from amortized inference and neural operators, and propose a novel supervised learning framework for zero-shot time series imputation, through parametric functions satisfying some (hidden) ODEs. Our proposal consists of two components. First, a broad probability distribution over the space of ODE solutions, observation times and noise mechanisms, with which we generate a large, synthetic dataset of (hidden) ODE solutions, along with their noisy and sparse observations. Second, a neural recognition model that is trained offline, to map the generated time series onto the spaces of initial conditions and time derivatives of the (hidden) ODE solutions, which we then integrate to impute the missing data. We empirically demonstrate that one and the same (pretrained) recognition model can perform zero-shot imputation across 63 distinct time series with missing values, each sampled from widely different dynamical systems. Likewise, we demonstrate that it can perform zero-shot imputation of missing high-dimensional data in 10 vastly different settings, spanning human motion, air quality, traffic and electricity studies, as well as Navier-Stokes simulations — without requiring any fine-tuning. What is more, our proposal often outperforms state-of-the-art methods, which are trained on the target datasets. Our pretrained model, repository and tutorials are available online.

arxiv情報

著者 Patrick Seifner,Kostadin Cvejoski,Antonia Körner,Ramsés J. Sánchez
発行日 2025-03-14 15:37:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS | Zero-shot Imputation with Foundation Inference Models for Dynamical Systems はコメントを受け付けていません

Bottom-up Iterative Anomalous Diffusion Detector (BI-ADD)

要約

近年、さまざまな拡散特性を備えた短い分子軌道のセグメンテーションは、粒子のダイナミクスを研究できるため、研究者の特に注目を集めています。
過去10年間で、機械学習方法は、変化ポイントの検出およびセグメンテーションタスクでも、非常に有望な結果を示してきました。
ここでは、分子軌道の変化点、つまり粒子の拡散的な挙動が変化するフレームの変化点を識別する新しい反復方法を紹介します。
私たちの場合の軌跡は、わずかなブラウン運動に従い、軌跡の拡散特性を推定します。
提案されたBI-ADDは、監視なしで監督された学習方法を組み合わせて、変更点を検出します。
私たちのアプローチは、個々のレベルでの分子軌跡の分析に使用し、複数の粒子追跡に拡張することもできます。これは、基本的な生物学の重要な課題です。
単一の粒子追跡専用のANDI2チャレンジ2024のフレームワーク内のさまざまなシナリオでBI-ADDを検証しました。
私たちの方法はPythonで実装されており、研究目的で公開されています。

要約(オリジナル)

In recent years, the segmentation of short molecular trajectories with varying diffusive properties has drawn particular attention of researchers, since it allows studying the dynamics of a particle. In the past decade, machine learning methods have shown highly promising results, also in changepoint detection and segmentation tasks. Here, we introduce a novel iterative method to identify the changepoints in a molecular trajectory, i.e., frames, where the diffusive behavior of a particle changes. A trajectory in our case follows a fractional Brownian motion and we estimate the diffusive properties of the trajectories. The proposed BI-ADD combines unsupervised and supervised learning methods to detect the changepoints. Our approach can be used for the analysis of molecular trajectories at the individual level and also be extended to multiple particle tracking, which is an important challenge in fundamental biology. We validated BI-ADD in various scenarios within the framework of the AnDi2 Challenge 2024 dedicated to single particle tracking. Our method is implemented in Python and is publicly available for research purposes.

arxiv情報

著者 Junwoo Park,Nataliya Sokolovska,Clément Cabriel,Ignacio Izeddin,Judith Miné-Hattab
発行日 2025-03-14 15:57:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Bottom-up Iterative Anomalous Diffusion Detector (BI-ADD) はコメントを受け付けていません

Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation

要約

適応ステップを使用した確率勾配降下(SGD)は、深いニューラルネットワークと生成モデルを訓練するために広く使用されています。
ほとんどの理論的結果は、モンテカルロ法を使用するいくつかの最近の深い学習および強化学習アプリケーションには当てはまらない偏見のない勾配推定器を取得することが可能であると想定しています。
このペーパーでは、偏った勾配を備えたSGDの包括的な非アサイスプチック分析と、非凸滑らかな機能のための適応ステップを提供します。
私たちの研究には、時間依存のバイアスが組み込まれており、勾配推定器のバイアスを制御することの重要性を強調しています。
特に、Adagrad、RMSProp、およびAmsgradは、偏りのある勾配を持つAdamの指数関数的な移動平均バリアントであるAmsgradが、偏りのないケースの既存の結果と同様の速度で滑らかな非凸関数の重要なポイントに収束することを確立します。
最後に、変分自動エンコンダー(VAE)を使用して実験結果を提供し、収束結果を示すいくつかの学習フレームワークへのアプリケーションを提供し、適切なハイパーパラメーターチューニングによってバイアスの効果をどのように減らすことができるかを示します。

要約(オリジナル)

Stochastic Gradient Descent (SGD) with adaptive steps is widely used to train deep neural networks and generative models. Most theoretical results assume that it is possible to obtain unbiased gradient estimators, which is not the case in several recent deep learning and reinforcement learning applications that use Monte Carlo methods. This paper provides a comprehensive non-asymptotic analysis of SGD with biased gradients and adaptive steps for non-convex smooth functions. Our study incorporates time-dependent bias and emphasizes the importance of controlling the bias of the gradient estimator. In particular, we establish that Adagrad, RMSProp, and AMSGRAD, an exponential moving average variant of Adam, with biased gradients, converge to critical points for smooth non-convex functions at a rate similar to existing results in the literature for the unbiased case. Finally, we provide experimental results using Variational Autoenconders (VAE) and applications to several learning frameworks that illustrate our convergence results and show how the effect of bias can be reduced by appropriate hyperparameter tuning.

arxiv情報

著者 Sobihan Surendran,Antoine Godichon-Baggioni,Adeline Fermanian,Sylvain Le Corff
発行日 2025-03-14 16:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation はコメントを受け付けていません

Early Directional Convergence in Deep Homogeneous Neural Networks for Small Initializations

要約

このホワイトペーパーでは、局所的にリプシッツグラデーションと2つ以上の均一性の順序があると想定される深い均一なニューラルネットワークをトレーニングするときに発生する勾配フローダイナミクスを研究します。
ここでは、十分に小さな初期化のために、トレーニングの初期段階では、ニューラルネットワークの重みは(ユークリッド)規範では小さく、最近導入された神経相関関数のKarush-Kuhn-Tucker(kkt)ポイントにほぼ収束することが示されています。
さらに、このホワイトペーパーでは、(漏れやすい)reluおよび多項式(漏れやすい)のreluアクティベーションを備えたフィードフォワードネットワークの神経相関関数のKKTポイントも研究し、ランク1つのKKTポイントに必要かつ十分な条件を導き出します。

要約(オリジナル)

This paper studies the gradient flow dynamics that arise when training deep homogeneous neural networks assumed to have locally Lipschitz gradients and an order of homogeneity strictly greater than two. It is shown here that for sufficiently small initializations, during the early stages of training, the weights of the neural network remain small in (Euclidean) norm and approximately converge in direction to the Karush-Kuhn-Tucker (KKT) points of the recently introduced neural correlation function. Additionally, this paper also studies the KKT points of the neural correlation function for feed-forward networks with (Leaky) ReLU and polynomial (Leaky) ReLU activations, deriving necessary and sufficient conditions for rank-one KKT points.

arxiv情報

著者 Akshay Kumar,Jarvis Haupt
発行日 2025-03-14 16:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Early Directional Convergence in Deep Homogeneous Neural Networks for Small Initializations はコメントを受け付けていません