Calibration of Multiple Asynchronous Microphone Arrays using Hybrid TDOA

要約

複数の非同期マイクアレイで作られた音響センシングシステムの正確なキャリブレーションは、サウンドソースのローカリゼーションと追跡の満足のいくパフォーマンスに不可欠です。
このタイプのシステムの最先端のキャリブレーション方法は、マイクアレイ(それぞれTDOA-MとDOAとして示される)の到着の時差と到着方向の測定方向に依存しています。
この論文では、キャリブレーションの精度を高めるために、マイクアレイに関して隣接するサウンドイベント(TDOA)間の到着測定の時差を組み込むことを提案します。
より具体的には、初期値推定(IVE)手順と最終的な共同最適化ステップを含む2段階のキャリブレーションアプローチを提案します。
IVEステージは、ハイブリッドTDOA(つまり、TDOAMおよびTDOA-S)、スピーカーを運ぶ移動ロボットからの走行距離計データ、およびDOAを使用して、マイクアレイの向きを除くすべてのパラメーターを最初に初期化します。
その後、マイクの向きは、反復的な最も近いポイント法を介して推定されます。
最終的な共同最適化ステップでは、複数のマイクアレイの位置、方向、時間オフセット、クロックドリフトレート、およびサウンドソースの位置を同時に推定します。
シミュレーションと実験の両方の結果は、TDOAノイズレベルが低いまたは中程度のシナリオの場合、私たちのアプローチは、精度の点で既存の方法よりも優れていることを示しています。
すべてのコードとデータは、https://github.com/aislabsustech/hybrid-tdoa-multi-calibで入手できます。

要約(オリジナル)

Accurate calibration of acoustic sensing systems made of multiple asynchronous microphone arrays is essential for satisfactory performance in sound source localization and tracking. State-of-the-art calibration methods for this type of system rely on the time difference of arrival and direction of arrival measurements among the microphone arrays (denoted as TDOA-M and DOA, respectively). In this paper, to enhance calibration accuracy, we propose to incorporate the time difference of arrival measurements between adjacent sound events (TDOAS) with respect to the microphone arrays. More specifically, we propose a two-stage calibration approach, including an initial value estimation (IVE) procedure and the final joint optimization step. The IVE stage first initializes all parameters except for microphone array orientations, using hybrid TDOA (i.e., TDOAM and TDOA-S), odometer data from a moving robot carrying a speaker, and DOA. Subsequently, microphone orientations are estimated through the iterative closest point method. The final joint optimization step estimates multiple microphone array locations, orientations, time offsets, clock drift rates, and sound source locations simultaneously. Both simulation and experiment results show that for scenarios with low or moderate TDOA noise levels, our approach outperforms existing methods in terms of accuracy. All code and data are available at https://github.com/AISLABsustech/Hybrid-TDOA-Multi-Calib.

arxiv情報

著者 Chengjie Zhang,Wenda Pan,Xinyang Han,He Kong
発行日 2025-02-10 06:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD | Calibration of Multiple Asynchronous Microphone Arrays using Hybrid TDOA はコメントを受け付けていません

Improved Extrinsic Calibration of Acoustic Cameras via Batch Optimization

要約

アコースティックカメラでは、実際には多くのアプリケーションが見つかりました。
アコースティックカメラ内のマイクアレイと視覚センサーの正確で信頼性の高い外因性キャリブレーションは、視覚測定と聴覚測定を融合するために重要です。
既存のキャリブレーション方法では、マイクアレイジオメトリの事前知識が必要であるか、繰り返しの速度や収束が遅い場合に苦しむグリッド検索に依存しています。
これらの制限を克服するために、このホワイトペーパーでは、視覚マーカーとアコースティックマーカーの両方を備えたキャリブレーションボードを使用して、カメラフレームの各マイクの位置を識別する自動キャリブレーション手法を提案します。
非線形の最小二乗問題として、外因性キャリブレーションの問題(マイクと視覚センサーの間)を定式化し、関連する問題を解決するためにバッチ最適化戦略を採用します。
広範な数値シミュレーションと現実世界の実験は、提案された方法が、既存の方法と比較して、アコースティックカメラの外因性パラメーターキャリブレーションの精度と堅牢性の両方を改善することを示しています。
コミュニティに利益をもたらすために、https://github.com/aislab-sustech/acousticcameraですべてのコードとデータをオープンソーシングします。

要約(オリジナル)

Acoustic cameras have found many applications in practice. Accurate and reliable extrinsic calibration of the microphone array and visual sensors within acoustic cameras is crucial for fusing visual and auditory measurements. Existing calibration methods either require prior knowledge of the microphone array geometry or rely on grid search which suffers from slow iteration speed or poor convergence. To overcome these limitations, in this paper, we propose an automatic calibration technique using a calibration board with both visual and acoustic markers to identify each microphone position in the camera frame. We formulate the extrinsic calibration problem (between microphones and the visual sensor) as a nonlinear least squares problem and employ a batch optimization strategy to solve the associated problem. Extensive numerical simulations and realworld experiments show that the proposed method improves both the accuracy and robustness of extrinsic parameter calibration for acoustic cameras, in comparison to existing methods. To benefit the community, we open-source all the codes and data at https://github.com/AISLAB-sustech/AcousticCamera.

arxiv情報

著者 Zhi Li,Jiang Wang,Xiaoyang Li,He Kong
発行日 2025-02-10 06:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD | Improved Extrinsic Calibration of Acoustic Cameras via Batch Optimization はコメントを受け付けていません

Interaction-aware Conformal Prediction for Crowd Navigation

要約

群衆のナビゲーション中、ロボットモーションプランは人間の動きの不確実性を考慮する必要があり、人間のモーションの不確実性はロボットモーションプランに依存しています。
相互作用を認識しているコンフォーマル予測(ICP)を導入して、不確実性を認識したロボットのモーション計画と意思決定依存性の人間の動きの不確実性の定量化を交互に導入します。
ICPは、人間の軌道を予測するための軌跡予測因子、確率的安全性のために追加された信頼区間半径を備えたロボットモーションを計画するモデル予測コントローラー、計画されたロボットモーションに条件付けられた人間の軌跡キャリブレーションデータセットを収集する人間のシミュレーター、および適合性予測モジュールで構成されています。
意思決定依存性キャリブレーションデータセットの軌道予測エラーを定量化する。
群衆ナビゲーションシミュレーションの実験は、ICPが以前の作品と比較して、ナビゲーション効率、社会的認識、不確実性の定量化の間でパフォーマンスのバランスを確保することを示しています。
ICPは、さまざまな群衆密度の下でのナビゲーションタスクによく一般化します。
速いランタイムと効率的なメモリ使用により、実際のアプリケーションでICPが実用的になります。
コードはhttps://github.com/tedhuang96/icpで入手できます。

要約(オリジナル)

During crowd navigation, robot motion plan needs to consider human motion uncertainty, and the human motion uncertainty is dependent on the robot motion plan. We introduce Interaction-aware Conformal Prediction (ICP) to alternate uncertainty-aware robot motion planning and decision-dependent human motion uncertainty quantification. ICP is composed of a trajectory predictor to predict human trajectories, a model predictive controller to plan robot motion with confidence interval radii added for probabilistic safety, a human simulator to collect human trajectory calibration dataset conditioned on the planned robot motion, and a conformal prediction module to quantify trajectory prediction error on the decision-dependent calibration dataset. Crowd navigation simulation experiments show that ICP strikes a good balance of performance among navigation efficiency, social awareness, and uncertainty quantification compared to previous works. ICP generalizes well to navigation tasks under various crowd densities. The fast runtime and efficient memory usage make ICP practical for real-world applications. Code is available at https://github.com/tedhuang96/icp.

arxiv情報

著者 Zhe Huang,Tianchen Ji,Heling Zhang,Fatemeh Cheraghi Pouria,Katherine Driggs-Campbell,Roy Dong
発行日 2025-02-10 07:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Interaction-aware Conformal Prediction for Crowd Navigation はコメントを受け付けていません

POEX: Understanding and Mitigating Policy Executable Jailbreak Attacks against Embodied AI

要約

具体化されたAIシステムは、LLMが計画モジュールとして統合されているため、急速に進化しており、複雑な命令を実行可能なポリシーに変換します。
ただし、LLMは脱獄攻撃に対して脆弱であり、悪意のあるコンテンツを生成できます。
このペーパーでは、従来のLLM脱獄攻撃をEAIシステムに適用する背後にある実現可能性と理論的根拠を調査します。
3つの質問に答えることを目指しています。(1)従来のLLM脱獄攻撃はEAIシステムに適用されますか?
(2)そうでない場合、どのような課題が生じますか?
(3)EAIの脱獄攻撃に対してどのように防御できますか?
この目的のために、最初に、新しく構築されたデータセット、つまり有害なRLBenchを使用して、既存のLLMベースのEAIシステムを測定します。
私たちの研究は、従来のLLM脱獄攻撃がEAIシステムに直接適用されないことを確認し、2つのユニークな課題を特定しています。
第一に、有害なテキストは必ずしも有害なポリシーを構成するものではありません。
第二に、有害なポリシーを生成できる場合でも、潜在的なリスクを制限するEAIシステムによって必ずしも実行可能ではありません。
より包括的なセキュリティ分析を促進するために、EAIシステムに対して有害で実行可能なポリシーを誘導するために敵対的な接尾辞を最適化する新しいレッドチーム化フレームワークであるPOEXを改良および導入します。
POEXの設計は、EAIシステム内の安全性検出を回避しながら、ポリシーの実行を成功させるために、敵対的な制約、ポリシー評価者、および接尾辞の最適化を採用しています。
有害なRLLBenchを使用した現実世界のロボットアームとシミュレーターの実験は、有効性を示しており、モデル間の深刻な安全性の脆弱性と高い転送可能性を強調しています。
最後に、迅速なベースとモデルベースの防御を提案し、EAIシステムでの攻撃の緩和と安全性の認知度の向上において85%の成功率を達成します。
私たちの調査結果は、重要なアプリケーションでのEAIの安全な展開を確保するための堅牢なセキュリティ対策の緊急の必要性を強調しています。

要約(オリジナル)

Embodied AI systems are rapidly evolving due to the integration of LLMs as planning modules, which transform complex instructions into executable policies. However, LLMs are vulnerable to jailbreak attacks, which can generate malicious content. This paper investigates the feasibility and rationale behind applying traditional LLM jailbreak attacks to EAI systems. We aim to answer three questions: (1) Do traditional LLM jailbreak attacks apply to EAI systems? (2) What challenges arise if they do not? and (3) How can we defend against EAI jailbreak attacks? To this end, we first measure existing LLM-based EAI systems using a newly constructed dataset, i.e., the Harmful-RLbench. Our study confirms that traditional LLM jailbreak attacks are not directly applicable to EAI systems and identifies two unique challenges. First, the harmful text does not necessarily constitute harmful policies. Second, even if harmful policies can be generated, they are not necessarily executable by the EAI systems, which limits the potential risk. To facilitate a more comprehensive security analysis, we refine and introduce POEX, a novel red teaming framework that optimizes adversarial suffixes to induce harmful yet executable policies against EAI systems. The design of POEX employs adversarial constraints, policy evaluators, and suffix optimization to ensure successful policy execution while evading safety detection inside an EAI system. Experiments on the real-world robotic arm and simulator using Harmful-RLbench demonstrate the efficacy, highlighting severe safety vulnerabilities and high transferability across models. Finally, we propose prompt-based and model-based defenses, achieving an 85% success rate in mitigating attacks and enhancing safety awareness in EAI systems. Our findings underscore the urgent need for robust security measures to ensure the safe deployment of EAI in critical applications.

arxiv情報

著者 Xuancun Lu,Zhengxian Huang,Xinfeng Li,Xiaoyu ji,Wenyuan Xu
発行日 2025-02-10 08:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.RO | POEX: Understanding and Mitigating Policy Executable Jailbreak Attacks against Embodied AI はコメントを受け付けていません

CT-UIO: Continuous-Time UWB-Inertial-Odometer Localization Using Non-Uniform B-spline with Fewer Anchors

要約

アンカーが少ないウルトラワイドバンド(UWB)ベースのポジショニングは、特にエネルギー制約の条件下で、近年、重要な研究関心を集めています。
ただし、ほとんどの既存の方法は、個別の時間表現と滑らかさの前提に依存して、ロボットのモーション状態を推測します。
このホワイトペーパーでは、アンカーが少ない不均一なBスプラインフレームワークを利用して、効率的なUWB-inertial-ODEMEMOMERのローカリゼーションシステムを紹介します。
従来の均一なBスプラインベースの連続時間方法とは異なり、不均一な連続時間軌道表現のための適応結節スパン調整戦略を導入します。
これは、移動速度に基づいて動的に制御ポイントを調整することによって達成されます。
IMUおよび走行距離データの効率的な融合を可能にするために、イノベーションベースの適応推定で改善された拡張カルマンフィルター(EKF)を提案して、短期の正確な動きを提供します。
さらに、少数の条件下で完全に観察可能なUWBローカリゼーションシステムを達成するという課題に対処するために、複数の仮説に基づく仮想アンカー(VA)生成法が提案されています。
バックエンドでは、グローバルな軌道推定のための適応スライドウィンドウを備えたCT-UIO因子グラフを提案します。
廊下および展示ホールのデータセットで実施された包括的な実験は、提案されたシステムの高い精度と堅牢なパフォーマンスを検証します。
この作業のコードベースとデータセットは、https://github.com/jasonsun623/ct-uioでオープンソースを施されます。

要約(オリジナル)

Ultra-wideband (UWB) based positioning with fewer anchors has attracted significant research interest in recent years, especially under energy-constrained conditions. However, most existing methods rely on discrete-time representations and smoothness priors to infer a robot’s motion states, which often struggle with ensuring multi-sensor data synchronization. In this paper, we present an efficient UWB-Inertial-odometer localization system, utilizing a non-uniform B-spline framework with fewer anchors. Unlike traditional uniform B-spline-based continuous-time methods, we introduce an adaptive knot-span adjustment strategy for non-uniform continuous-time trajectory representation. This is accomplished by adjusting control points dynamically based on movement speed. To enable efficient fusion of IMU and odometer data, we propose an improved Extended Kalman Filter (EKF) with innovation-based adaptive estimation to provide short-term accurate motion prior. Furthermore, to address the challenge of achieving a fully observable UWB localization system under few-anchor conditions, the Virtual Anchor (VA) generation method based on multiple hypotheses is proposed. At the backend, we propose a CT-UIO factor graph with an adaptive sliding window for global trajectory estimation. Comprehensive experiments conducted on corridor and exhibition hall datasets validate the proposed system’s high precision and robust performance. The codebase and datasets of this work will be open-sourced at https://github.com/JasonSun623/CT-UIO.

arxiv情報

著者 Jian Sun,Wei Sun,Genwei Zhang,Kailun Yang,Song Li,Xiangqi Meng,Na Deng,Chongbin Tan
発行日 2025-02-10 09:30:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CT-UIO: Continuous-Time UWB-Inertial-Odometer Localization Using Non-Uniform B-spline with Fewer Anchors はコメントを受け付けていません

Occupancy-SLAM: An Efficient and Robust Algorithm for Simultaneously Optimizing Robot Poses and Occupancy Map

要約

ポーズと特徴の共同最適化は、特徴ベースのスラム問題でより正確な結果をもたらすことが広範囲に研究され、実証されています。
ただし、共同でポーズと非機能ベースのマップの最適化に関する研究は限られたままです。
占有マップは、スペースを障害物、自由エリア、未知の地域に効果的に分類し、さまざまなタスクの空間情報をロボットに提供するため、広く使用されていない環境表現です。
この論文では、パラメーター化されたマップ表現を介してロボット軌道と占有マップの共同最適化を可能にする新しい最適化ベースのスラム法である占有スラムを提案します。
重要なノベルティは、ロボットのポーズと占有値の両方を異なるセル頂点で同時に最適化することにあります。これは、マップを推定する前にロボットポーズを最初に最適化する必要がある既存の方法からの大幅な逸脱です。
シミュレーションと実用的な2Dレーザーデータセットを使用した評価は、提案されたアプローチが、同等の計算時間のある最先端の技術よりも、より正確なロボット軌道と占有マップを堅牢に取得できることを示しています。
3Dケースの予備的な結果は、実際の3Dアプリケーションで提案された方法の可能性をさらに確認し、既存の方法よりも正確な結果を達成します。

要約(オリジナル)

Joint optimization of poses and features has been extensively studied and demonstrated to yield more accurate results in feature-based SLAM problems. However, research on jointly optimizing poses and non-feature-based maps remains limited. Occupancy maps are widely used non-feature-based environment representations because they effectively classify spaces into obstacles, free areas, and unknown regions, providing robots with spatial information for various tasks. In this paper, we propose Occupancy-SLAM, a novel optimization-based SLAM method that enables the joint optimization of robot trajectory and the occupancy map through a parameterized map representation. The key novelty lies in optimizing both robot poses and occupancy values at different cell vertices simultaneously, a significant departure from existing methods where the robot poses need to be optimized first before the map can be estimated. Evaluations using simulations and practical 2D laser datasets demonstrate that the proposed approach can robustly obtain more accurate robot trajectories and occupancy maps than state-of-the-art techniques with comparable computational time. Preliminary results in the 3D case further confirm the potential of the proposed method in practical 3D applications, achieving more accurate results than existing methods.

arxiv情報

著者 Yingyu Wang,Liang Zhao,Shoudong Huang
発行日 2025-02-10 09:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Occupancy-SLAM: An Efficient and Robust Algorithm for Simultaneously Optimizing Robot Poses and Occupancy Map はコメントを受け付けていません

SpikingSoft: A Spiking Neuron Controller for Bio-inspired Locomotion with Soft Snake Robots

要約

動物の運動神経と物理的弾力性の動的な結合に触発されたこの作品は、低レベルのスパイキング神経メカニズムによって柔らかいヘビの物理的振動を利用することにより、移動歩行を生成する可能性を探ります。
この目標を達成するために、調整可能なしきい値を備えた二重閾値スパイクニューロンモデルを導入して、さまざまな出力パターンを生成します。
このニューロンモデルは、ソフトロボットヘビの自然なダイナミクスを興奮させる可能性があり、単に神経のしきい値を変更することで、回転や前進などの明確な動きを可能にします。
最後に、私たちのアプローチは、SpikingSoftと呼ばれ、自然に補強学習とペアになり、統合されていることを実証します。
高レベルのエージェントは、複雑な移動パターンを生成するために2つのしきい値を調整するだけで、反応的な移動の学習を強く簡素化する必要があります。
シミュレーション結果は、提案されたアーキテクチャがソフトヘビロボットのパフォーマンスを大幅に向上させ、成功率が21.6%増加し、ターゲットに到達するための時間が29%短縮され、バニラと比較してスムーズな動きでターゲット目標を達成できることを示しています。
トルク空間で作用する補強学習コントローラーまたは中央パターンジェネレーターコントローラー。

要約(オリジナル)

Inspired by the dynamic coupling of moto-neurons and physical elasticity in animals, this work explores the possibility of generating locomotion gaits by utilizing physical oscillations in a soft snake by means of a low-level spiking neural mechanism. To achieve this goal, we introduce the Double Threshold Spiking neuron model with adjustable thresholds to generate varied output patterns. This neuron model can excite the natural dynamics of soft robotic snakes, and it enables distinct movements, such as turning or moving forward, by simply altering the neural thresholds. Finally, we demonstrate that our approach, termed SpikingSoft, naturally pairs and integrates with reinforcement learning. The high-level agent only needs to adjust the two thresholds to generate complex movement patterns, thus strongly simplifying the learning of reactive locomotion. Simulation results demonstrate that the proposed architecture significantly enhances the performance of the soft snake robot, enabling it to achieve target objectives with a 21.6% increase in success rate, a 29% reduction in time to reach the target, and smoother movements compared to the vanilla reinforcement learning controllers or Central Pattern Generator controller acting in torque space.

arxiv情報

著者 Chuhan Zhang,Cong Wang,Wei Pan,Cosimo Della Santina
発行日 2025-02-10 09:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | SpikingSoft: A Spiking Neuron Controller for Bio-inspired Locomotion with Soft Snake Robots はコメントを受け付けていません

Accelerating Outlier-robust Rotation Estimation by Stereographic Projection

要約

ローテーションの推定は、多くのコンピュータービジョンおよびロボットタスクで基本的な役割を果たします。
ただし、多数の外れ値(つまり、ミスマッチ)とノイズを含む大きな入力での回転を効率的に推定することは、認識されている課題です。
この課題に対処するために、多くの堅牢な回転推定方法が設計されています。
残念ながら、既存の方法は、長い計算時間とローカルオプティマのリスクのために適用できないことがよくあります。
この論文では、効率的で堅牢な回転推定方法を提案します。
具体的には、私たちの方法は、最初に回転軸のみを含む幾何学的制約を調査します。
次に、立体策と空間投票技術を使用して、回転軸と角度を識別します。
さらに、この方法は最適な回転推定を効率的に取得し、複数の回転を同時に推定できます。
当社の方法の実現可能性を検証するために、合成データと実世界の両方のデータを使用して比較実験を実施します。
結果は、GPUの支援により、私たちの方法は、0.07秒以内に大規模($ 10^6 $ポイント)を解くことができることを示しています。
精度と効率の観点から、既存の方法よりも優れています。

要約(オリジナル)

Rotation estimation plays a fundamental role in many computer vision and robot tasks. However, efficiently estimating rotation in large inputs containing numerous outliers (i.e., mismatches) and noise is a recognized challenge. Many robust rotation estimation methods have been designed to address this challenge. Unfortunately, existing methods are often inapplicable due to their long computation time and the risk of local optima. In this paper, we propose an efficient and robust rotation estimation method. Specifically, our method first investigates geometric constraints involving only the rotation axis. Then, it uses stereographic projection and spatial voting techniques to identify the rotation axis and angle. Furthermore, our method efficiently obtains the optimal rotation estimation and can estimate multiple rotations simultaneously. To verify the feasibility of our method, we conduct comparative experiments using both synthetic and real-world data. The results show that, with GPU assistance, our method can solve large-scale ($10^6$ points) and severely corrupted (90\% outlier rate) rotation estimation problems within 0.07 seconds, with an angular error of only 0.01 degrees, which is superior to existing methods in terms of accuracy and efficiency.

arxiv情報

著者 Taosi Xu,Yinlong Liu,Xianbo Wang,Zhi-Xin Yang
発行日 2025-02-10 10:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Accelerating Outlier-robust Rotation Estimation by Stereographic Projection はコメントを受け付けていません

Curriculum Reinforcement Learning for Complex Reward Functions

要約

強化学習(RL)は、制御の問題に取り組むための強力なツールとして浮上していますが、その実用的なアプリケーションは、複数の用語で複雑な報酬機能から生じる複雑さによってしばしば妨げられます。
報酬仮説は、あらゆる目的をスカラー報酬関数にカプセル化できるが、搾取なしの個々の、潜在的に敵対的な報酬用語のバランスをとることができると仮定しています。
多くの場合、競合する報酬条件の正確なバランスを必要とする従来のRLメソッドの制限を克服するために、最初に単純な報酬関数を最大化し、次に完全で複雑な報酬に移行する2段階の報酬カリキュラムを提案します。
俳優が批評家にどれだけうまく適合して、2つの段階間の遷移点を自動的に決定する方法に基づいた方法を提供します。
さらに、次の段階でサンプルを再利用することにより、効率的な位相転送を可能にする柔軟なリプレイバッファーを導入します。
DeepMind Control Suiteでの方法を評価します。これは、報酬の定義に追加の制約用語を含めるように変更されました。
さらに、モバイルロボットシナリオで、さらに競合する報酬条件でメソッドを評価します。
両方の設定で、2段階の報酬カリキュラムは、カリキュラムなしで訓練されたベースラインと比較して、パフォーマンスの大幅な改善を達成します。
報酬の制約用語を活用する代わりに、タスクの完了と制約満足度のバランスをとるポリシーを学ぶことができます。
私たちの結果は、複雑な報酬を備えた環境で効率的で安定したRLのための2段階の報酬カリキュラムの可能性を示しており、実際のアプリケーションでより堅牢で適応性のあるロボットシステムへの道を開いています。

要約(オリジナル)

Reinforcement learning (RL) has emerged as a powerful tool for tackling control problems, but its practical application is often hindered by the complexity arising from intricate reward functions with multiple terms. The reward hypothesis posits that any objective can be encapsulated in a scalar reward function, yet balancing individual, potentially adversarial, reward terms without exploitation remains challenging. To overcome the limitations of traditional RL methods, which often require precise balancing of competing reward terms, we propose a two-stage reward curriculum that first maximizes a simple reward function and then transitions to the full, complex reward. We provide a method based on how well an actor fits a critic to automatically determine the transition point between the two stages. Additionally, we introduce a flexible replay buffer that enables efficient phase transfer by reusing samples from one stage in the next. We evaluate our method on the DeepMind control suite, modified to include an additional constraint term in the reward definitions. We further evaluate our method in a mobile robot scenario with even more competing reward terms. In both settings, our two-stage reward curriculum achieves a substantial improvement in performance compared to a baseline trained without curriculum. Instead of exploiting the constraint term in the reward, it is able to learn policies that balance task completion and constraint satisfaction. Our results demonstrate the potential of two-stage reward curricula for efficient and stable RL in environments with complex rewards, paving the way for more robust and adaptable robotic systems in real-world applications.

arxiv情報

著者 Kilian Freitag,Kristian Ceder,Rita Laezza,Knut Åkesson,Morteza Haghir Chehreghani
発行日 2025-02-10 10:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Curriculum Reinforcement Learning for Complex Reward Functions はコメントを受け付けていません

Whole-Body Teleoperation for Mobile Manipulation at Zero Added Cost

要約

デモデータは、複雑な行動を学び、ロボット基礎モデルをトレーニングする上で重要な役割を果たします。
静的マニピュレーターには効果的な制御インターフェイスが存在しますが、データ収集は、多数の自由度のために、モバイルマニピュレーターにとって面倒で時間がかかっています。
特殊なハードウェア、アバター、またはモーショントラッキングは全身制御を可能にすることができますが、これらのアプローチは高価、ロボット固有の、またはロボットと人間のデモンストレーターの間の具体化の不一致に苦しんでいます。
この作業では、既存のインターフェイスからエンドエフェクターの動きを推進し、以前に開発された強化学習エージェントに基本的な動きを委任する新しいテレオ操作方法であるMoMA-Teleopを提示し、オペレーターはタスク関連のエンドエフェクターに完全に焦点を合わせます。
動き。
これにより、ジョイスティックやハンドガイダンスなどの標準的なインターフェイスを介して、追加のハードウェアまたはセットアップコストを持たないモバイルマニピュレーターの全身テレオ操作が可能になります。
さらに、オペレーターは追跡されたワークスペースにバインドされておらず、空間的に拡張されたタスクを介してロボットを使用して自由に移動できます。
私たちのアプローチは、さまざまなロボットやタスクにわたってタスクの完了時間を大幅に短縮することを実証します。
生成されたデータは、具体化の不一致なしに多様な全身の動きをカバーするため、効率的な模倣学習を可能にします。
タスク固有のエンドエフェクターの動きに焦点を当てることにより、私たちのアプローチは、わずか5つのデモンストレーションから、新しい障害物やオブジェクトの位置の変更などの目に見えない設定に移行するスキルを学びます。
https://moma-teleop.cs.uni-freiburg.deでコードとビデオを利用できます。

要約(オリジナル)

Demonstration data plays a key role in learning complex behaviors and training robotic foundation models. While effective control interfaces exist for static manipulators, data collection remains cumbersome and time intensive for mobile manipulators due to their large number of degrees of freedom. While specialized hardware, avatars, or motion tracking can enable whole-body control, these approaches are either expensive, robot-specific, or suffer from the embodiment mismatch between robot and human demonstrator. In this work, we present MoMa-Teleop, a novel teleoperation method that infers end-effector motions from existing interfaces and delegates the base motions to a previously developed reinforcement learning agent, leaving the operator to focus fully on the task-relevant end-effector motions. This enables whole-body teleoperation of mobile manipulators with no additional hardware or setup costs via standard interfaces such as joysticks or hand guidance. Moreover, the operator is not bound to a tracked workspace and can move freely with the robot over spatially extended tasks. We demonstrate that our approach results in a significant reduction in task completion time across a variety of robots and tasks. As the generated data covers diverse whole-body motions without embodiment mismatch, it enables efficient imitation learning. By focusing on task-specific end-effector motions, our approach learns skills that transfer to unseen settings, such as new obstacles or changed object positions, from as little as five demonstrations. We make code and videos available at https://moma-teleop.cs.uni-freiburg.de.

arxiv情報

著者 Daniel Honerkamp,Harsh Mahesheka,Jan Ole von Hartz,Tim Welschehold,Abhinav Valada
発行日 2025-02-10 10:50:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Whole-Body Teleoperation for Mobile Manipulation at Zero Added Cost はコメントを受け付けていません