Invariant Extended Kalman Filter for Autonomous Surface Vessels with Partial Orientation Measurements

要約

自律型表面容器(ASV)は、海洋科学にとってますます不可欠であり、水中マッピングと検査のための堅牢なプラットフォームを提供しています。
特に車両ポーズの正確な状態推定は、正確な海底マッピングにとって最も重要です。小さな表面偏差でさえ、海底を下に感知すると大きな結果をもたらす可能性があるためです。
この課題に対処するために、部分的な方向測定を統合するために設計された不変の拡張カルマンフィルター(INEKF)フレームワークを提案します。
従来の推定は、しばしば固定ランドマークに対する相対的な位置測定に依存していますが、外洋ASVは主に後退地平線を観察します。
前向きのモノクラーカメラを活用して、この地平線に関してロールとピッチを推定します。
INEKF内でこれらの測定値を効果的に利用するために、このような部分的な方向データを組み込むための新しいフレームワークを紹介します。
このアプローチは、完全な方向の測定値を想定している従来のINEKF実装とは対照的であり、特に「船乗りの飛行機」に制約されている平面車両の動きに関連しています。
このペーパーでは、開発されたINEKFフレームワークについて詳しく説明しています。
Horizo​​nベースのロール/ピッチ観測とDual-Antenna GPSの測定測定とASV状態推定の測定値との統合。
完全な方向と乗法EKF(MEKF)を使用して、INEKFに対する比較分析を提供します。
我々の結果は、外洋環境での正確なASV状態推定のために提案された部分方向測定の有効性と堅牢性を示しています。

要約(オリジナル)

Autonomous surface vessels (ASVs) are increasingly vital for marine science, offering robust platforms for underwater mapping and inspection. Accurate state estimation, particularly of vehicle pose, is paramount for precise seafloor mapping, as even small surface deviations can have significant consequences when sensing the seafloor below. To address this challenge, we propose an Invariant Extended Kalman Filter (InEKF) framework designed to integrate partial orientation measurements. While conventional estimation often relies on relative position measurements to fixed landmarks, open ocean ASVs primarily observe a receding horizon. We leverage forward-facing monocular cameras to estimate roll and pitch with respect to this horizon, which provides yaw-ambiguous partial orientation information. To effectively utilize these measurements within the InEKF, we introduce a novel framework for incorporating such partial orientation data. This approach contrasts with traditional InEKF implementations that assume full orientation measurements and is particularly relevant for planar vehicle motion constrained to a ‘seafaring plane.’ This paper details the developed InEKF framework; its integration with horizon-based roll/pitch observations and dual-antenna GPS heading measurements for ASV state estimation; and provides a comparative analysis against the InEKF using full orientation and a Multiplicative EKF (MEKF). Our results demonstrate the efficacy and robustness of the proposed partial orientation measurements for accurate ASV state estimation in open ocean environments.

arxiv情報

著者 Derek Benham,Easton Potokar,Joshua G. Mangelson
発行日 2025-06-12 16:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Invariant Extended Kalman Filter for Autonomous Surface Vessels with Partial Orientation Measurements はコメントを受け付けていません

Modeling Trust Dynamics in Robot-Assisted Delivery: Impact of Trust Repair Strategies

要約

効率と信頼性の向上により、自律システムはさまざまなタスクで人間にとって貴重なアシスタントになりつつあります。
ロボット支援配信のコンテキストでは、ロボットのパフォーマンスと信頼の修復戦略が人間の信頼にどのように影響するかを調査します。
このタスクでは、二次タスクを処理しながら、人間はロボットを送信して自律的に配信するか、手動で制御することを選択できます。
調査された信頼修理戦略には、短い説明と長い説明、謝罪と約束、否定が含まれます。
人間の参加者からのデータを使用して、入出力Hidden Markovモデル(IOHMM)を使用して人間の行動をモデル化して、信頼と人間の行動確率のダイナミクスをキャプチャします。
私たちの調査結果は、人間が信頼が高いときにロボットを自律的に展開する可能性が高いことを示しています。
さらに、州の移行の推定では、長い説明が失敗後の信頼を修復するのに最も効果的であることが示されていますが、拒否は信頼の損失を防ぐのに最も効果的です。
また、モデルによって生成された信頼の推定値は、自己報告された信頼の値に対して同型であり、それらを解釈可能にしていることを実証します。
このモデルは、自律システムにおける人間の信頼のリアルタイム調整を促進する最適なポリシーを開発するための基礎を築きます。

要約(オリジナル)

With increasing efficiency and reliability, autonomous systems are becoming valuable assistants to humans in various tasks. In the context of robot-assisted delivery, we investigate how robot performance and trust repair strategies impact human trust. In this task, while handling a secondary task, humans can choose to either send the robot to deliver autonomously or manually control it. The trust repair strategies examined include short and long explanations, apology and promise, and denial. Using data from human participants, we model human behavior using an Input-Output Hidden Markov Model (IOHMM) to capture the dynamics of trust and human action probabilities. Our findings indicate that humans are more likely to deploy the robot autonomously when their trust is high. Furthermore, state transition estimates show that long explanations are the most effective at repairing trust following a failure, while denial is most effective at preventing trust loss. We also demonstrate that the trust estimates generated by our model are isomorphic to self-reported trust values, making them interpretable. This model lays the groundwork for developing optimal policies that facilitate real-time adjustment of human trust in autonomous systems.

arxiv情報

著者 Dong Hae Mangalindan,Karthik Kandikonda,Ericka Rovira,Vaibhav Srivastava
発行日 2025-06-12 16:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Modeling Trust Dynamics in Robot-Assisted Delivery: Impact of Trust Repair Strategies はコメントを受け付けていません

Vib2Move: In-Hand Object Reconfiguration via Fingertip Micro-Vibrations

要約

Vib2Moveを紹介します。これは、指先のマイクロ振動と重力を使用して平面オブジェクトを正確に再配置する手元のオブジェクト再構成の新しいアプローチです。
私たちのフレームワークは、3つの重要な革新で構成されています。
まず、効果的な指とオブジェクトの摩擦係数を動的に調節し、グリッピング力の変化を効果的にエミュレートする振動ベースのアクチュエーターを設計します。
第二に、2つの対称的な可変摩擦接点パッチを備えた平行グリッパーでクランプされたオブジェクトのスライディングモーションモデルを導き出します。
第三に、目的のオブジェクトのポーズを実現するために、エンドエフェクターの指の軌跡と指先の振動を調整するモーションプランナーを提案します。
実際の試験では、Vib2Moveは一貫して最終的なポジショニングエラーを6 mm未満で生成し、さまざまな平面オブジェクトにわたって信頼できる高精度操作を示しています。
その他の結果と情報については、https://vib2move.github.ioをご覧ください。

要約(オリジナル)

We introduce Vib2Move, a novel approach for in-hand object reconfiguration that uses fingertip micro-vibrations and gravity to precisely reposition planar objects. Our framework comprises three key innovations. First, we design a vibration-based actuator that dynamically modulates the effective finger-object friction coefficient, effectively emulating changes in gripping force. Second, we derive a sliding motion model for objects clamped in a parallel gripper with two symmetric, variable-friction contact patches. Third, we propose a motion planner that coordinates end-effector finger trajectories and fingertip vibrations to achieve the desired object pose. In real-world trials, Vib2Move consistently yields final positioning errors below 6 mm, demonstrating reliable, high-precision manipulation across a variety of planar objects. For more results and information, please visit https://vib2move.github.io.

arxiv情報

著者 Xili Yi,Nima Fazeli
発行日 2025-06-12 17:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Vib2Move: In-Hand Object Reconfiguration via Fingertip Micro-Vibrations はコメントを受け付けていません

Passivity-Centric Safe Reinforcement Learning for Contact-Rich Robotic Tasks

要約

強化学習(RL)は、さまざまなロボットタスクで顕著な成功を収めています。
ただし、実際のシナリオ、特に接触豊富な環境での展開は、多くの場合、重要な安全性と安定性の側面を見落としています。
受動性保証のないポリシーは、システムの不安定性をもたらし、ロボット、その環境、および人間のオペレーターにリスクをもたらす可能性があります。
この作業では、接触豊富なタスクに展開されたときの従来のRLポリシーの制限を調査し、これらの課題に答えるためにトレーニングと展開の両方でエネルギーベースのパッシブコントロールと安全なRLの組み合わせを調査します。
まず、標準のRLポリシーが接触豊富なシナリオの安定性を満たさないという発見を明らかにします。
第二に、安全なRL定式化にエネルギーベースの制約を備えたA \ textIT {passivity-aware} RLポリシートレーニングを導入します。
最後に、展開中に\ textIT {passivity-ensured}制御のポリシー出力に受動性フィルターが発揮されます。
私たちは、接触豊富なロボット迷路探査タスクに関する比較研究を実施し、学習受動性ポリシーの効果と受動性供給制御の重要性を評価します。
実験は、受動性と存在するRLポリシーが、トレーニングで高いタスクの完了を達成したとしても、展開のエネルギー制約を容易に違反することを示しています。
結果は、提案されたアプローチが受動性フィルタリングを通じて制御の安定性を保証し、受動性を認識するトレーニングを通じてエネルギー効率を向上させることを示しています。
実際の実験のビデオは、補足資料として入手できます。
また、\ href {https://huggingface.co/anonymous998/passiverl/tree/main}でトレーニング前のチェックポイントモデルとオフラインデータをリリースします。

要約(オリジナル)

Reinforcement learning (RL) has achieved remarkable success in various robotic tasks; however, its deployment in real-world scenarios, particularly in contact-rich environments, often overlooks critical safety and stability aspects. Policies without passivity guarantees can result in system instability, posing risks to robots, their environments, and human operators. In this work, we investigate the limitations of traditional RL policies when deployed in contact-rich tasks and explore the combination of energy-based passive control with safe RL in both training and deployment to answer these challenges. Firstly, we reveal the discovery that standard RL policy does not satisfy stability in contact-rich scenarios. Secondly, we introduce a \textit{passivity-aware} RL policy training with energy-based constraints in our safe RL formulation. Lastly, a passivity filter is exerted on the policy output for \textit{passivity-ensured} control during deployment. We conduct comparative studies on a contact-rich robotic maze exploration task, evaluating the effects of learning passivity-aware policies and the importance of passivity-ensured control. The experiments demonstrate that a passivity-agnostic RL policy easily violates energy constraints in deployment, even though it achieves high task completion in training. The results show that our proposed approach guarantees control stability through passivity filtering and improves the energy efficiency through passivity-aware training. A video of real-world experiments is available as supplementary material. We also release the checkpoint model and offline data for pre-training at \href{https://huggingface.co/Anonymous998/passiveRL/tree/main}{Hugging Face}.

arxiv情報

著者 Heng Zhang,Gokhan Solak,Sebastian Hjorth,Arash Ajoudani
発行日 2025-06-12 17:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Passivity-Centric Safe Reinforcement Learning for Contact-Rich Robotic Tasks はコメントを受け付けていません

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation

要約

特に堅牢な一般化に関しては、現実世界の設定でのロボット操作は依然として困難です。
既存のシミュレーションプラットフォームには、ポリシーがさまざまな命令やシナリオにどのように適応するかを調査するための十分なサポートがありません。
したがって、彼らはLLMSのような指導に従う基礎モデルへの関心の高まりに遅れをとっています。
このギャップを埋めるために、政策一般化研究に合わせた現実的な卓上シミュレーションプラットフォームであるGenManipを紹介します。
LLM駆動型タスク指向のシーングラフを介した自動パイプラインを備えており、10K注釈付きの3Dオブジェクトアセットを使用して大規模で多様なタスクを合成します。
一般化を体系的に評価するために、Human-in-the-loop補正を介して洗練された200のシナリオのベンチマークであるGenmanip-benchを提示します。
2つのポリシータイプを評価します。(1)認識、推論、計画の基礎モデルを統合するモジュラー操作システム、および(2)スケーラブルなデータ収集を通じて訓練されたエンドツーエンドのポリシー。
結果は、データスケーリングのエンドツーエンドの方法に利点があるが、基礎モデルで強化されたモジュラーシステムは、多様なシナリオ全体でより効果的に一般化することを示しています。
このプラットフォームは、現実的な条件で政策の一般化を進めるための重要な洞察を促進すると予想しています。
プロジェクトページ:https://genmanip.axi404.top/。

要約(オリジナル)

Robotic manipulation in real-world settings remains challenging, especially regarding robust generalization. Existing simulation platforms lack sufficient support for exploring how policies adapt to varied instructions and scenarios. Thus, they lag behind the growing interest in instruction-following foundation models like LLMs, whose adaptability is crucial yet remains underexplored in fair comparisons. To bridge this gap, we introduce GenManip, a realistic tabletop simulation platform tailored for policy generalization studies. It features an automatic pipeline via LLM-driven task-oriented scene graph to synthesize large-scale, diverse tasks using 10K annotated 3D object assets. To systematically assess generalization, we present GenManip-Bench, a benchmark of 200 scenarios refined via human-in-the-loop corrections. We evaluate two policy types: (1) modular manipulation systems integrating foundation models for perception, reasoning, and planning, and (2) end-to-end policies trained through scalable data collection. Results show that while data scaling benefits end-to-end methods, modular systems enhanced with foundation models generalize more effectively across diverse scenarios. We anticipate this platform to facilitate critical insights for advancing policy generalization in realistic conditions. Project Page: https://genmanip.axi404.top/.

arxiv情報

著者 Ning Gao,Yilun Chen,Shuai Yang,Xinyi Chen,Yang Tian,Hao Li,Haifeng Huang,Hanqing Wang,Tai Wang,Jiangmiao Pang
発行日 2025-06-12 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation はコメントを受け付けていません

OmniFluids: Unified Physics Pre-trained Modeling of Fluid Dynamics

要約

流体ダイナミクスの高忠実度と効率的なシミュレーションは、さまざまな科学および工学アプリケーションの進行を促進します。
従来の計算流体ダイナミクス法は、強力な解釈可能性と保証された収束を提供しますが、微細な空間的および時間的メッシュに依存しており、法外な計算コストが発生します。
物理学に基づいたニューラルネットワーク(PINN)とニューラル演算子は、ディープ学習技術を使用してPDEソルバーを加速することを目指しています。
ただし、PINNには広範な再訓練と慎重な調整が必要であり、純粋にデータ駆動型のオペレーターが大きなラベル付きデータセットを必要とします。
ハイブリッド物理対応方法は、数値離散化をネットワークアーキテクチャまたは損失関数に埋め込みましたが、粗速度の測定値とのバランスをとると、限界速度の向上を達成し、不安定になります。
この目的のために、Omnifluidsを紹介します。これは、物理学のみの事前トレーニング、粗グリッドオペレーターの蒸留、および少数の微調整を統合する統合された物理学の事前訓練を受けたオペレーター学習フレームワークであり、制限またはゼロのデータ監督下での迅速な推論と正確な予測を可能にします。
建築設計のために、オムニフルイドの主要なコンポーネントには、オペレーターの混合、マルチフレームデコーダー、および物理ベースの監督とシームレスな統合を維持しながら、多様な物理タスクの効率的でスケーラブルなモデリングを可能にする因数分解フーリエ層が含まれます。
幅広い2次元および3次元のベンチマークにわたって、Omnifluidは、フローフィールドの再構築と乱流統計の精度における最先端のAI駆動型の方法を大幅に上回り、古典的なソルバーと比較して10〜100倍のスピードアップを提供し、宇宙データから未知の物理パラメーターを正確に再生します。
この作業は、限られたデータの可用性の下で複雑な流体システムにおける効率的で一般化可能な代理モデリングのための新しいパラダイムを確立します。

要約(オリジナル)

High-fidelity and efficient simulation of fluid dynamics drive progress in various scientific and engineering applications. Traditional computational fluid dynamics methods offer strong interpretability and guaranteed convergence, but rely on fine spatial and temporal meshes, incurring prohibitive computational costs. Physics-informed neural networks (PINNs) and neural operators aim to accelerate PDE solvers using deep learning techniques. However, PINNs require extensive retraining and careful tuning, and purely data-driven operators demand large labeled datasets. Hybrid physics-aware methods embed numerical discretizations into network architectures or loss functions, but achieve marginal speed gains and become unstable when balancing coarse priors against high-fidelity measurements. To this end, we introduce OmniFluids, a unified physics pre-trained operator learning framework that integrates physics-only pre-training, coarse-grid operator distillation, and few-shot fine-tuning, which enables fast inference and accurate prediction under limited or zero data supervision. For architectural design, the key components of OmniFluids include a mixture of operators, a multi-frame decoder, and factorized Fourier layers, which enable efficient and scalable modeling of diverse physical tasks while maintaining seamless integration with physics-based supervision. Across a broad range of two- and three-dimensional benchmarks, OmniFluids significantly outperforms state-of-the-art AI-driven methods in flow field reconstruction and turbulence statistics accuracy, delivering 10-100x speedups compared to classical solvers, and accurately recovers unknown physical parameters from sparse, noisy data. This work establishes a new paradigm for efficient and generalizable surrogate modeling in complex fluid systems under limited data availability.

arxiv情報

著者 Rui Zhang,Qi Meng,Han Wan,Yang Liu,Zhi-Ming Ma,Hao Sun
発行日 2025-06-12 16:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.flu-dyn | OmniFluids: Unified Physics Pre-trained Modeling of Fluid Dynamics はコメントを受け付けていません

Breaking Distortion-free Watermarks in Large Language Models

要約

近年、LLMの透かしは、多くの現実世界ドメインで有望なアプリケーションを備えたAIの生成コンテンツに対する魅力的な保護手段として浮上しています。
ただし、現在のLLM透かしスキームは、透かしのメカニズムを逆転させたい専門家の敵に対して脆弱であるという懸念が高まっています。
LLM透かしを破壊または盗むことの以前の研究は、主にKirchenbauer et alの分布修飾アルゴリズムに焦点を当てています。
(2023)、サンプリング前にロジットベクトルを転用します。
この作業では、隠された透かしキーシーケンスを使用して基礎となるトークン分布を保持する他の著名なLLM透かしスキーム、歪みのない透かし(Kuditipudi etal。2024)のリバースエンジニアリングに焦点を当てています。
より洗練された透かしスキームの下でも、LLMを妥協してスプーフィング攻撃を実行すること、つまり、元の透かし型LLMに起因する多数の(潜在的に有害な)テキストを生成することが可能であることを実証します。
具体的には、LLMの透かしのための基礎となる秘密鍵を正確に回復するために、適応プロンプトとソートベースのアルゴリズムを使用して提案します。
llama-3.1-8b-instruct、mistral-7b-instruct、gemma-7b、およびopt-125mに関する経験的な調査結果は、歪みのない透け式技術の堅牢性と使いやすさに関する現在の理論的主張に挑戦します。

要約(オリジナル)

In recent years, LLM watermarking has emerged as an attractive safeguard against AI-generated content, with promising applications in many real-world domains. However, there are growing concerns that the current LLM watermarking schemes are vulnerable to expert adversaries wishing to reverse-engineer the watermarking mechanisms. Prior work in breaking or stealing LLM watermarks mainly focuses on the distribution-modifying algorithm of Kirchenbauer et al. (2023), which perturbs the logit vector before sampling. In this work, we focus on reverse-engineering the other prominent LLM watermarking scheme, distortion-free watermarking (Kuditipudi et al. 2024), which preserves the underlying token distribution by using a hidden watermarking key sequence. We demonstrate that, even under a more sophisticated watermarking scheme, it is possible to compromise the LLM and carry out a spoofing attack, i.e. generate a large number of (potentially harmful) texts that can be attributed to the original watermarked LLM. Specifically, we propose using adaptive prompting and a sorting-based algorithm to accurately recover the underlying secret key for watermarking the LLM. Our empirical findings on LLAMA-3.1-8B-Instruct, Mistral-7B-Instruct, Gemma-7b, and OPT-125M challenge the current theoretical claims on the robustness and usability of the distortion-free watermarking techniques.

arxiv情報

著者 Shayleen Reynolds,Hengzhi He,Dung Daniel T. Ngo,Saheed Obitayo,Niccolò Dalmasso,Guang Cheng,Vamsi K. Potluru,Manuela Veloso
発行日 2025-06-12 16:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Breaking Distortion-free Watermarks in Large Language Models はコメントを受け付けていません

mLaSDI: Multi-stage latent space dynamics identification

要約

部分微分方程式(PDES)の正確な数値解を決定することは、多くの科学分野で重要なタスクです。
ただし、ソルバーは計算上高価であり、減少したモデル(ROM)の開発につながる可能性があります。
最近、潜在宇宙ダイナミクス識別(LASDI)がデータ駆動型の非侵入ROMフレームワークとして提案されました。
LASDIは、自動エンコーダーを使用してトレーニングデータを圧縮し、潜在的な空間ダイナミクスを管理するユーザーが選択する通常の微分方程式(ODE)のシステムを学習します。
これにより、潜在空間の低次元のodeを補間して進化させることにより、迅速な予測が可能になります。
Lasdiは多くの問題に対して効果的なROMを生成しましたが、自動エンコーダーはトレーニングデータを正確に再構築するのが困難になり、特に複雑または高周波体制で潜在的な空間で課されたダイナミクスを満たすことができます。
これに対処するために、マルチステージ潜在スペースダイナミクス識別(MLASDI)を提案します。
MLASDIを使用すると、いくつかの自動エンコーダーが段階的に順番にトレーニングされ、各自動エンコーダーが前の段階のエラーを修正することを学習します。
小さな自動エンコーダーでMLASDIを適用すると、予測エラーと再構成エラーが低くなり、LASDIと比較してトレーニング時間も短縮されることがわかります。

要約(オリジナル)

Determining accurate numerical solutions of partial differential equations (PDEs) is an important task in many scientific disciplines. However, solvers can be computationally expensive, leading to the development of reduced-order models (ROMs). Recently, Latent Space Dynamics Identification (LaSDI) was proposed as a data-driven, non-intrusive ROM framework. LaSDI compresses the training data using an autoencoder and learns a system of user-chosen ordinary differential equations (ODEs), which govern the latent space dynamics. This allows for rapid predictions by interpolating and evolving the low-dimensional ODEs in the latent space. While LaSDI has produced effective ROMs for numerous problems, the autoencoder can have difficulty accurately reconstructing training data while also satisfying the imposed dynamics in the latent space, particularly in complex or high-frequency regimes. To address this, we propose multi-stage Latent Space Dynamics Identification (mLaSDI). With mLaSDI, several autoencoders are trained sequentially in stages, where each autoencoder learns to correct the error of the previous stages. We find that applying mLaSDI with small autoencoders results in lower prediction and reconstruction errors, while also reducing training time compared to LaSDI.

arxiv情報

著者 William Anderson,Seung Whan Chung,Youngsoo Choi
発行日 2025-06-12 16:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA | mLaSDI: Multi-stage latent space dynamics identification はコメントを受け付けていません

Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization

要約

強化学習の最近の進歩(RL)にもかかわらず、未知の妨害の下での状態の制約を堅牢に満たす学習ポリシーの問題は開いたままです。
この論文では、モデルのないRLの2つの確立された手法の相互作用を分析することにより、エントロピーの正則化と制約の罰則を分析することにより、堅牢な安全性を達成するための新しい視点を提供します。
制約されたRLにおけるエントロピーの正規化が、将来の実行可能なアクションの数を最大化することを学習し、それによりアクションノイズに対して堅牢な制約の満足度を促進することを学ぶ本質的にバイアスのエントロピーの正則化を経験的に明らかにします。
さらに、ペナルティを通じて厳格な安全性の制約を緩和することにより、制約されたRL問題は、制約のないものによって任意に密接に近似し、したがって標準のモデルフリーRLを使用して解決できることを示します。
この再定式化は、安全性と最適性の両方を維持しながら、障害に対する回復力を経験的に改善します。
我々の結果は、エントロピーの正規化と堅牢性との関係は、単純な報酬形状を通じてRLの堅牢な安全性を可能にするため、さらなる経験的および理論的調査のための有望な手段であることを示しています。

要約(オリジナル)

Despite the many recent advances in reinforcement learning (RL), the question of learning policies that robustly satisfy state constraints under unknown disturbances remains open. In this paper, we offer a new perspective on achieving robust safety by analyzing the interplay between two well-established techniques in model-free RL: entropy regularization, and constraints penalization. We reveal empirically that entropy regularization in constrained RL inherently biases learning toward maximizing the number of future viable actions, thereby promoting constraints satisfaction robust to action noise. Furthermore, we show that by relaxing strict safety constraints through penalties, the constrained RL problem can be approximated arbitrarily closely by an unconstrained one and thus solved using standard model-free RL. This reformulation preserves both safety and optimality while empirically improving resilience to disturbances. Our results indicate that the connection between entropy regularization and robustness is a promising avenue for further empirical and theoretical investigation, as it enables robust safety in RL through simple reward shaping.

arxiv情報

著者 Pierre-François Massiani,Alexander von Rohr,Lukas Haverbeck,Sebastian Trimpe
発行日 2025-06-12 16:34:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization はコメントを受け付けていません

Unveiling the Role of Randomization in Multiclass Adversarial Classification: Insights from Graph Theory

要約

機械学習モデルの敵対的な堅牢性を改善するための手段としてのランダム化は、最近大きな注目を集めています。
残念ながら、これまでの理論分析の多くは、バイナリ分類に焦点を当てており、より複雑なマルチクラス設定に対する限られた洞察のみを提供しています。
この論文では、グラフ理論の分野からインスピレーションを引き出すことにより、このギャップを埋めるための一歩を踏み出します。
私たちの分析は、個別のデータ分布に焦点を当てており、設定された梱包問題の確立されたフレームワーク内で敵対的なリスク最小化の問題を唱えることができます。
そうすることで、ランダム化が堅牢性を改善するために必要なデータ分布のサポートに関する3つの構造条件を特定することができます。
さらに、いくつかのデータ分布を構築することができます(バイナリ分類とは対照的に)決定論的からランダム化ソリューションに切り替えると、最適な敵対的リスクが大幅に減少します。
これらの発見は、ランダム化がマルチクラス分類における敵対的攻撃に対する堅牢性を高める上で果たすことができる重要な役割を強調しています。

要約(オリジナル)

Randomization as a mean to improve the adversarial robustness of machine learning models has recently attracted significant attention. Unfortunately, much of the theoretical analysis so far has focused on binary classification, providing only limited insights into the more complex multiclass setting. In this paper, we take a step toward closing this gap by drawing inspiration from the field of graph theory. Our analysis focuses on discrete data distributions, allowing us to cast the adversarial risk minimization problems within the well-established framework of set packing problems. By doing so, we are able to identify three structural conditions on the support of the data distribution that are necessary for randomization to improve robustness. Furthermore, we are able to construct several data distributions where (contrarily to binary classification) switching from a deterministic to a randomized solution significantly reduces the optimal adversarial risk. These findings highlight the crucial role randomization can play in enhancing robustness to adversarial attacks in multiclass classification.

arxiv情報

著者 Lucas Gnecco-Heredia,Matteo Sammut,Muni Sreenivas Pydi,Rafael Pinot,Benjamin Negrevergne,Yann Chevaleyre
発行日 2025-06-12 16:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Unveiling the Role of Randomization in Multiclass Adversarial Classification: Insights from Graph Theory はコメントを受け付けていません