A Safety Modulator Actor-Critic Method in Model-Free Safe Reinforcement Learning and Application in UAV Hovering

要約

この論文では、モデルフリーの安全強化学習 (RL) における安全制約と過大評価の緩和に対処するための安全モジュレーター アクター クリティカル (SMAC) 法を提案します。
安全モジュレーターは、アクションを調整することで安全制約を満たすように開発されており、ポリシーが安全制約を無視して報酬の最大化に集中できるようにします。
さらに、安全制約による Q 値の過大評価を緩和するために、SMAC の理論更新ルールを備えた分布批評家が提案されています。
無人航空機 (UAV) のホバリングに関するシミュレーションと現実世界のシナリオ実験の両方で、SMAC が安全上の制約を効果的に維持し、主流のベースライン アルゴリズムを上回るパフォーマンスを発揮できることが確認されています。

要約(オリジナル)

This paper proposes a safety modulator actor-critic (SMAC) method to address safety constraint and overestimation mitigation in model-free safe reinforcement learning (RL). A safety modulator is developed to satisfy safety constraints by modulating actions, allowing the policy to ignore safety constraint and focus on maximizing reward. Additionally, a distributional critic with a theoretical update rule for SMAC is proposed to mitigate the overestimation of Q-values with safety constraints. Both simulation and real-world scenarios experiments on Unmanned Aerial Vehicles (UAVs) hovering confirm that the SMAC can effectively maintain safety constraints and outperform mainstream baseline algorithms.

arxiv情報

著者 Qihan Qi,Xinsong Yang,Gang Xia,Daniel W. C. Ho,Pengyang Tang
発行日 2024-10-09 13:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

Safe Reinforcement Learning Filter for Multicopter Collision-Free Tracking under disturbances

要約

本稿では、入力外乱によるマルチコプタの無衝突軌道追跡を実現するための安全強化学習フィルタ(SRLF)を提案する。
追跡中の未知の外乱との衝突を回避するために、新しいロバスト コントロール バリア関数 (RCBF) とその解析技術が導入されています。
システム状態が安全なセット内に確実に収まるように、RCBF ゲインは制御動作で設計されています。
安全でない強化学習 (RL) 制御入力を安全なものに変換するために安全フィルターが導入され、安全性の制約を明示的に考慮せずに RL トレーニングを続行できるようになります。
SRLF は、RCBF の前方不変性と入力飽和制約を組み込んだ二次計画法 (QP) 問題を解くことにより、厳密に保証された安全な制御動作を取得します。
マルチコプターでのシミュレーションと現実世界の実験の両方で、入力外乱や飽和下で衝突のない追跡を達成する際の SRLF の有効性と優れたパフォーマンスが実証されています。

要約(オリジナル)

This paper proposes a safe reinforcement learning filter (SRLF) to realize multicopter collision-free trajectory tracking with input disturbance. A novel robust control barrier function (RCBF) with its analysis techniques is introduced to avoid collisions with unknown disturbances during tracking. To ensure the system state remains within the safe set, the RCBF gain is designed in control action. A safety filter is introduced to transform unsafe reinforcement learning (RL) control inputs into safe ones, allowing RL training to proceed without explicitly considering safety constraints. The SRLF obtains rigorous guaranteed safe control action by solving a quadratic programming (QP) problem that incorporates forward invariance of RCBF and input saturation constraints. Both simulation and real-world experiments on multicopters demonstrate the effectiveness and excellent performance of SRLF in achieving collision-free tracking under input disturbances and saturation.

arxiv情報

著者 Qihan Qi,Xinsong Yang,Gang Xia
発行日 2024-10-09 13:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Combining Planning and Diffusion for Mobility with Unknown Dynamics

要約

長い視野にわたる大きなオブジェクト (倉庫内のカートなど) の操作は、展開可能なロボット システムにとって不可欠なスキルです。
大きな物体には、物体を牽引して同時に操作、ナビゲーション、移動を行うモバイル操作が必要です。
現実世界の多くの状況では、オフィスチェア (回転ベースと 5 つのキャスターホイール付き) と地面の相互作用など、オブジェクトのダイナミクスは非常に複雑です。
ダイナミクスが部分的に不明な長距離ロボット操作問題に対する階層アルゴリズムを提案します。
拡散ベースの動作クローニングは、ダイナミクスが未知の短距離問題に対して非常に効果的であることが観察されたため、この問題を、ウェイポイント シーケンスを生成する抽象的な高レベルの障害物認識運動計画問題に分解します。
ウェイポイントを順番に達成するために、短地平線の相対運動拡散ポリシーを使用します。
私たちは、オフィスの椅子を押したり引いたりする必要がある Spot ロボットでモバイル操作ポリシーをトレーニングします。
私たちの階層的操作ポリシーは、長い水平線のデモンストレーションや、しっかりと取り付けられたオブジェクトを想定した動作計画で訓練された拡散ポリシーと比較して、特に水平線が長くなった場合に一貫して優れたパフォーマンスを発揮します (10 回の実行中、成功率は 8 (それぞれ 0 と 5))。
)。
重要なのは、私たちが学習したポリシーは、さらなるトレーニングなしで、より多くの摩擦を引き起こす新しいレイアウト、グリップ、椅子、床材に一般化され、他の複雑なモバイル操作の問題にも有望であることを示しています。
プロジェクトページ: https://yravan.github.io/plannerownedpolicy/

要約(オリジナル)

Manipulation of large objects over long horizons (such as carts in a warehouse) is an essential skill for deployable robotic systems. Large objects require mobile manipulation which involves simultaneous manipulation, navigation, and movement with the object in tow. In many real-world situations, object dynamics are incredibly complex, such as the interaction of an office chair (with a rotating base and five caster wheels) and the ground. We present a hierarchical algorithm for long-horizon robot manipulation problems in which the dynamics are partially unknown. We observe that diffusion-based behavior cloning is highly effective for short-horizon problems with unknown dynamics, so we decompose the problem into an abstract high-level, obstacle-aware motion-planning problem that produces a waypoint sequence. We use a short-horizon, relative-motion diffusion policy to achieve the waypoints in sequence. We train mobile manipulation policies on a Spot robot that has to push and pull an office chair. Our hierarchical manipulation policy performs consistently better, especially when the horizon increases, compared to a diffusion policy trained on long-horizon demonstrations or motion planning assuming a rigidly-attached object (success rate of 8 (versus 0 and 5 respectively) out of 10 runs). Importantly, our learned policy generalizes to new layouts, grasps, chairs, and flooring that induces more friction, without any further training, showing promise for other complex mobile manipulation problems. Project Page: https://yravan.github.io/plannerorderedpolicy/

arxiv情報

著者 Yajvan Ravan,Zhutian Yang,Tao Chen,Tomás Lozano-Pérez,Leslie Pack Kaelbling
発行日 2024-10-09 14:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Gaitor: Learning a Unified Representation Across Gaits for Real-World Quadruped Locomotion

要約

現在の最先端の四足歩行は、さまざまな複雑な動きを生み出すことができます。
これらの方法は、個別のスキル セット間の切り替えに依存するか、複雑なブラック ボックス モデルを使用して歩行全体の分布を学習します。
あるいは、移動歩行全体のもつれのない 2D 表現を学習する Gaitor を紹介します。
この学習された表現は、閉ループ制御のための計画空間を形成し、連続的な歩行遷移と知覚的な地形横断を実現します。
ゲイターの潜在空間は容易に解釈可能であり、歩行の移行中に新たな目に見えない歩行が出現することがわかります。
潜在スペースは、フットスイングの高さと長さに関して解きほぐされます。
これは、これらの歩行特性が 2D 潜在表現で独立して変化できることを意味します。
シンプルな地形エンコードと、潜在空間で動作する学習済みプランナーを組み合わせて、Gaitor は、不均一な地形に反応しながら、望ましい歩行タイプやスイング特性を含む動作コマンドを受け取ることができます。
ANYmal C プラットフォーム上のシミュレーションと現実世界の両方で Gaitor を評価します。
私たちの知る限り、これは複数の歩行について統一され解釈可能な潜在空間を学習した最初の研究であり、その結果、実際の四足ロボットの異なる移動モード間の継続的なブレンドが可能になります。
この論文の手法と結果の概要は、https://youtu.be/eVFQbRyilCA にあります。

要約(オリジナル)

The current state-of-the-art in quadruped locomotion is able to produce a variety of complex motions. These methods either rely on switching between a discrete set of skills or learn a distribution across gaits using complex black-box models. Alternatively, we present Gaitor, which learns a disentangled and 2D representation across locomotion gaits. This learnt representation forms a planning space for closed-loop control delivering continuous gait transitions and perceptive terrain traversal. Gaitor’s latent space is readily interpretable and we discover that during gait transitions, novel unseen gaits emerge. The latent space is disentangled with respect to footswing heights and lengths. This means that these gait characteristics can be varied independently in the 2D latent representation. Together with a simple terrain encoding and a learnt planner operating in the latent space, Gaitor can take motion commands including desired gait type and swing characteristics all while reacting to uneven terrain. We evaluate Gaitor in both simulation and the real world on the ANYmal C platform. To the best of our knowledge, this is the first work learning a unified and interpretable latent space for multiple gaits, resulting in continuous blending between different locomotion modes on a real quadruped robot. An overview of the methods and results in this paper is found at https://youtu.be/eVFQbRyilCA.

arxiv情報

著者 Alexander L. Mitchell,Wolfgang Merkt,Aristotelis Papatheodorou,Ioannis Havoutis,Ingmar Posner
発行日 2024-10-09 14:27:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

HGS-Planner: Hierarchical Planning Framework for Active Scene Reconstruction Using 3D Gaussian Splatting

要約

捜索や救助などの複雑な任務では、ロボットは周囲を認識し理解する能力に頼って、未知の環境で賢明な意思決定を下す必要があります。
高品質でリアルタイムの再構成は状況認識を強化し、インテリジェント ロボット工学にとって重要です。
従来の方法では、シーンの表現が不十分であったり、リアルタイムで使用するには遅すぎることがよくありました。
3D ガウス スプラッティング (3DGS) の有効性に着想を得て、高速かつ忠実度の高いアクティブな再構成のための階層型計画フレームワークを提案します。
私たちの手法では、完了と品質の向上を評価して適応的に再構築を導き、グローバルとローカルの計画を統合して効率を高めます。
シミュレートされた現実世界の環境での実験では、私たちのアプローチが既存のリアルタイム手法よりも優れていることが示されています。

要約(オリジナル)

In complex missions such as search and rescue,robots must make intelligent decisions in unknown environments, relying on their ability to perceive and understand their surroundings. High-quality and real-time reconstruction enhances situational awareness and is crucial for intelligent robotics. Traditional methods often struggle with poor scene representation or are too slow for real-time use. Inspired by the efficacy of 3D Gaussian Splatting (3DGS), we propose a hierarchical planning framework for fast and high-fidelity active reconstruction. Our method evaluates completion and quality gain to adaptively guide reconstruction, integrating global and local planning for efficiency. Experiments in simulated and real-world environments show our approach outperforms existing real-time methods.

arxiv情報

著者 Zijun Xu,Rui Jin,Ke Wu,Yi Zhao,Zhiwei Zhang,Jieru Zhao,Fei Gao,Zhongxue Gan,Wenchao Ding
発行日 2024-10-09 14:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Control System Design and Experiments for Autonomous Underwater Helicopter Docking Procedure Based on Acoustic-inertial-optical Guidance

要約

自律型水中ヘリコプタ(AUH)の水中ドッキング手順のための制御システム構造を本論文で提案し,音響慣性光学誘導を利用した。
従来の自律型水中探査機(AUV)とは異なり、AUH の操縦性要件はドッキング手順中の方が厳しく、垂直移動中に静止したままであるか、水平方向の動きを最小限に抑える必要があります。
ドッキング手順はホーミングと着陸の 2 つの段階に分かれており、各段階では異なる誘導方法が使用されます。
さらに、さまざまな高度で動作するセグメント化された整列戦略と線形速度決定の両方が着陸段階で採用されます。
海中ドッキング システム (SDS) の独特な構造により、AUH は特定の姿勢と高度で固定された向きで SDS にドッキングする必要があります。
したがって、AUH が SDS に正常にドッキングされたかどうかを判断するための特定の基準が提案されています。
さらに、AUH のドッキング手順における提案された制御方法の有効性とロバスト性が、プール実験と海上試験を通じて実証されています。

要約(オリジナル)

A control system structure for the underwater docking procedure of an Autonomous Underwater Helicopter (AUH) is proposed in this paper, which utilizes acoustic-inertial-optical guidance. Unlike conventional Autonomous Underwater Vehicles (AUVs), the maneuverability requirements for AUHs are more stringent during the docking procedure, requiring it to remain stationary or have minimal horizontal movement while moving vertically. The docking procedure is divided into two stages: Homing and Landing, each stage utilizing different guidance methods. Additionally, a segmented aligning strategy operating at various altitudes and a linear velocity decision are both adopted in Landing stage. Due to the unique structure of the Subsea Docking System (SDS), the AUH is required to dock onto the SDS in a fixed orientation with specific attitude and altitude. Therefore, a particular criterion is proposed to determine whether the AUH has successfully docked onto the SDS. Furthermore, the effectiveness and robustness of the proposed control method in AUH’s docking procedure are demonstrated through pool experiments and sea trials.

arxiv情報

著者 Haoda Li,Xinyu An,Rendong Feng,Zhenwei Rong,Zhuoyu Zhang,Zhipeng Li,Liming Zhao,Ying Chen
発行日 2024-10-09 14:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models

要約

我々は、短期的な動作を超えた長期的なタスクの問題解決能力を四足ロボットに与える、大規模言語モデル (LLM) ベースのシステムを紹介します。
四足動物の長距離タスクは、タスク計画のための問題の意味論の高度な理解と、環境と対話するための幅広い移動および操作スキルの両方を必要とするため、困難です。
私たちのシステムは、大規模な言語モデルを使用して高レベルの推論層を構築し、タスクの説明からハイブリッドの離散連続計画をロボット コードとして生成します。
これは、計画をスケッチするためのセマンティック プランナー、計画内の引数を予測するためのパラメータ計算機、および計画を実行可能なロボット コードに変換するためのコード ジェネレーターという複数の LLM エージェントで構成されます。
低レベルでは、強化学習を採用して一連の動作計画と制御スキルをトレーニングし、四足動物の柔軟性を解放して豊かな環境インタラクションを実現します。
私たちのシステムは、1 つのスキルだけでは完了することが不可能な長期的なタスクでテストされています。
シミュレーションと現実世界での実験は、それが複数段階の戦略を首尾よく導き出し、ツールの構築や人間への助けの通知などの重要な動作を実証することを示しています。
デモはプロジェクト ページ https://sites.google.com/view/long-horizo​​n-robot でご覧いただけます。

要約(オリジナル)

We present a large language model (LLM) based system to empower quadrupedal robots with problem-solving abilities for long-horizon tasks beyond short-term motions. Long-horizon tasks for quadrupeds are challenging since they require both a high-level understanding of the semantics of the problem for task planning and a broad range of locomotion and manipulation skills to interact with the environment. Our system builds a high-level reasoning layer with large language models, which generates hybrid discrete-continuous plans as robot code from task descriptions. It comprises multiple LLM agents: a semantic planner for sketching a plan, a parameter calculator for predicting arguments in the plan, and a code generator to convert the plan into executable robot code. At the low level, we adopt reinforcement learning to train a set of motion planning and control skills to unleash the flexibility of quadrupeds for rich environment interactions. Our system is tested on long-horizon tasks that are infeasible to complete with one single skill. Simulation and real-world experiments show that it successfully figures out multi-step strategies and demonstrates non-trivial behaviors, including building tools or notifying a human for help. Demos are available on our project page: https://sites.google.com/view/long-horizon-robot.

arxiv情報

著者 Yutao Ouyang,Jinhan Li,Yunfei Li,Zhongyu Li,Chao Yu,Koushil Sreenath,Yi Wu
発行日 2024-10-09 15:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

RM4D: A Combined Reachability and Inverse Reachability Map for Common 6-/7-axis Robot Arms by Dimensionality Reduction to 4D

要約

マニピュレータの作業空間に関する知識は、ロボットの設計、把握計画、ロボット ベースの配置などのさまざまなタスクの基礎となります。
その結果、ワークスペース表現はロボット工学においてよく研究されています。
2 つの重要な表現は、到達可能性マップと逆到達可能性マップです。
前者は、ロボットが現在いる場所から特定のエンドエフェクターのポーズに到達できるかどうかを予測し、後者は、目的のエンドエフェクターのポーズに適した基本位置を提案します。
通常、到達可能性マップは、ロボットのワークスペースを含む 6D 空間を離散化し、セルごとに到達可能かどうかを判断することによって構築されます。
その後、到達可能性マップが反転されて、逆マップが構築されます。
これは、そのようなマップのアプリケーションを制限する面倒なプロセスです。
この研究では、既存の 6 軸と 7 軸のロボット アームの共通点を利用して、離散化の次元を 6D から 4D に削減します。
私たちは、順方向クエリと逆方向クエリの両方に単一の 4D データ構造のみを必要とするマップである Reachability Map 4D (RM4D) を提案します。
これにより、既存のマップよりもはるかにコンパクトなマップを構築でき、反転のオーバーヘッドや精度の低下はありません。
私たちの実験では、モバイルマニピュレーターによる把握計画における RM4D の有用性を示しています。

要約(オリジナル)

Knowledge of a manipulator’s workspace is fundamental for a variety of tasks including robot design, grasp planning and robot base placement. Consequently, workspace representations are well studied in robotics. Two important representations are reachability maps and inverse reachability maps. The former predicts whether a given end-effector pose is reachable from where the robot currently is, and the latter suggests suitable base positions for a desired end-effector pose. Typically, the reachability map is built by discretizing the 6D space containing the robot’s workspace and determining, for each cell, whether it is reachable or not. The reachability map is subsequently inverted to build the inverse map. This is a cumbersome process which restricts the applications of such maps. In this work, we exploit commonalities of existing six and seven axis robot arms to reduce the dimension of the discretization from 6D to 4D. We propose Reachability Map 4D (RM4D), a map that only requires a single 4D data structure for both forward and inverse queries. This gives a much more compact map that can be constructed by an order of magnitude faster than existing maps, with no inversion overheads and no loss in accuracy. Our experiments showcase the usefulness of RM4D for grasp planning with a mobile manipulator.

arxiv情報

著者 Martin Rudorfer
発行日 2024-10-09 15:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Exploring Human’s Gender Perception and Bias toward Non-Humanoid Robots

要約

この研究では、人間の性別に対する認識と非人型ロボットに対する偏見を調査します。
ロボットが産業を超えてさまざまな分野にますます統合されているため、人間が非人型ロボットの形態とどのように関わるかを理解することが不可欠です。
この研究は、人間ロボットの相互作用や非ヒューマノイドロボットのユーザー受容に影響を与える、性別シグナルを含む擬人化された手がかりの役割に焦点を当てています。
私たちは 3 つの調査を通じて、外見、声の変調、行動特性などのデザイン要素が性別認識やタスクへの適合性にどのような影響を与えるかを分析します。
私たちの調査結果は、スポット、ミニチーター、ドローンなどの人型ではないロボットであっても、擬人化された特徴に基づいて性別の帰属の対象となり、認識される役割や運用の信頼性に影響を与えることを示しています。
この結果は、特に重要な状況において、機能効率とユーザーの関連性の両方を最適化するために設計要素のバランスをとることの重要性を強調しています。

要約(オリジナル)

In this study, we investigate the human perception of gender and bias toward non-humanoid robots. As robots increasingly integrate into various sectors beyond industry, it is essential to understand how humans engage with non-humanoid robotic forms. This research focuses on the role of anthropomorphic cues, including gender signals, in influencing human robot interaction and user acceptance of non-humanoid robots. Through three surveys, we analyze how design elements such as physical appearance, voice modulation, and behavioral attributes affect gender perception and task suitability. Our findings demonstrate that even non-humanoid robots like Spot, Mini-Cheetah, and drones are subject to gender attribution based on anthropomorphic features, affecting their perceived roles and operational trustworthiness. The results underscore the importance of balancing design elements to optimize both functional efficiency and user relatability, particularly in critical contexts.

arxiv情報

著者 Mahya Ramezani,Jose Luis Sanchez-Lopez
発行日 2024-10-09 15:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

The Brain-Inspired Cooperative Shared Control Framework for Brain-Machine Interface

要約

ブレイン マシン インターフェイス (BMI) アプリケーションにおける主な課題は、神経信号の情報量の少なさとノイズ レベルの高さであり、安定したロボット制御に深刻な影響を及ぼします。
この課題に対処するために、私たちは、脳からインスピレーションを得た知能に基づく協調的な共有制御フレームワークを提案します。このフレームワークでは、制御信号が神経活動から解読され、ロボットが微細な制御を処理します。
これにより、ロボットと脳の間の柔軟で適応的なインタラクション制御の組み合わせが可能になり、人間とロボットの複雑なコラボレーションが可能になります。
提案されたフレームワークは、速度やステアリングなどのロボット アームとホイールを制御するためにスパイキング ニューラル ネットワーク (SNN) を利用します。
システムの完全な統合は依然として将来の目標ですが、ロボット アームの制御、オブジェクト追跡、およびマップ生成のための個々のモジュールは正常に実装されています。
このフレームワークにより、BMI のパフォーマンスが大幅に向上すると期待されています。
実際の設定では、脳からインスピレーションを得たアルゴリズムを利用した協調共有制御を備えた BMI により、臨床応用の可能性が大幅に高まります。

要約(オリジナル)

In brain-machine interface (BMI) applications, a key challenge is the low information content and high noise level in neural signals, severely affecting stable robotic control. To address this challenge, we proposes a cooperative shared control framework based on brain-inspired intelligence, where control signals are decoded from neural activity, and the robot handles the fine control. This allows for a combination of flexible and adaptive interaction control between the robot and the brain, making intricate human-robot collaboration feasible. The proposed framework utilizes spiking neural networks (SNNs) for controlling robotic arm and wheel, including speed and steering. While full integration of the system remains a future goal, individual modules for robotic arm control, object tracking, and map generation have been successfully implemented. The framework is expected to significantly enhance the performance of BMI. In practical settings, the BMI with cooperative shared control, utilizing a brain-inspired algorithm, will greatly enhance the potential for clinical applications.

arxiv情報

著者 Junjie Yang,Ling Liu,Shengjie Zheng,Lang Qian,Gang Gao,Xin Chen,Xiaojian Li
発行日 2024-10-09 16:10:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, cs.SY, eess.SY | コメントする