Trajectory Optimization for In-Hand Manipulation with Tactile Force Control

要約

人間の手の強さは、小さなオブジェクトを正確かつ堅牢に操作する能力にあります。
対照的に、単純なロボットグリッパーは器用さが低く、小さなオブジェクトを効果的に処理できません。
これが、多くの自動化タスクがロボットによって未解決のままである理由です。
このペーパーでは、コンパクトな磁気触覚センサー(MTSS)を装備したロボットハンドを使用した手の操作のための最適化ベースのフレームワークを紹介します。
シャドウロボットからのロボットハンドの小さなフォームファクターは、接触制約を満たしながらオブジェクトの状態を推定する際の課題を導入します。
これに対処するために、指の動きに非線形プログラミング(NLP)を使用して軌道最適化問題を策定し、指のジオメトリに沿って接触点が変化するようにします。
ソルバーから最適化された軌道を使用して、ローリングモーションのオープンループコントローラーを実装およびテストします。
堅牢性と精度をさらに強化するために、指の力コントローラーとMTSSを使用するオブジェクトの状態推定量を導入します。
提案されたフレームワークは、比較実験を通じて検証され、コンプライアンスの考慮事項と強制制御を組み込むことでローリング運動の精度と堅牢性が向上することを示しています。
フォースコントローラーを使用してオブジェクトを転がすと、オープンループコントローラーを実行するよりも成功する可能性が30 \%高くなります。
デモビデオはhttps://youtu.be/6j_mul_aye8で入手できます。

要約(オリジナル)

The strength of the human hand lies in its ability to manipulate small objects precisely and robustly. In contrast, simple robotic grippers have low dexterity and fail to handle small objects effectively. This is why many automation tasks remain unsolved by robots. This paper presents an optimization-based framework for in-hand manipulation with a robotic hand equipped with compact Magnetic Tactile Sensors (MTSs). The small form factor of the robotic hand from Shadow Robot introduces challenges in estimating the state of the object while satisfying contact constraints. To address this, we formulate a trajectory optimization problem using Nonlinear Programming (NLP) for finger movements while ensuring contact points to change along the geometry of the fingers. Using the optimized trajectory from the solver, we implement and test an open-loop controller for rolling motion. To further enhance robustness and accuracy, we introduce a force controller for the fingers and a state estimator for the object utilizing MTSs. The proposed framework is validated through comparative experiments, showing that incorporating the force control with compliance consideration improves the accuracy and robustness of the rolling motion. Rolling an object with the force controller is 30\% more likely to succeed than running an open-loop controller. The demonstration video is available at https://youtu.be/6J_muL_AyE8.

arxiv情報

著者 Haegu Lee,Yitaek Kim,Victor Melbye Staven,Christoffer Sloth
発行日 2025-03-11 09:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Trajectory Optimization for In-Hand Manipulation with Tactile Force Control はコメントを受け付けていません

Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs

要約

最近のアプローチは、静的再構成のセグメンテーションに焦点を合わせており、それにより、セマンティック3D理解を下流のアプリケーションに装備しています。
しかし、私たちが住んでいる世界は動的であり、環境と人間またはロボット剤の間の多数の相互作用によって特徴付けられます。
静的セマンティックマップはこの情報をキャプチャすることができず、すべての変更がコストがかかり、追跡が効果的でない後、環境を再実行する素朴な解決策。
引き出しに保管されているオブジェクト。
Lost&Subtを見つけて、この制限に対処するアプローチを提示します。
対応するハンド位置とカメラのポーズ推定値を持つエゴセントリック録音のみに基づいて、検出されたインタラクション間隔内で移動オブジェクトの6DOFポーズを追跡できます。
これらの変更は、オブジェクトレベルの関係をキャプチャする変換可能なシーングラフにオンラインで適用されます。
最先端のオブジェクトポーズトラッカーと比較して、私たちのアプローチは、挑戦的なエゴセントリックな視点と深さ情報の欠如を処理する上でより信頼性が高くなります。
翻訳エラーと方向誤差について、それぞれ34%と56%の2番目に良いアプローチを上回り、目に見えてスムーズな6DOFオブジェクトの軌跡を生成します。
さらに、動的シーングラフの取得した相互作用情報を、そうでなければ実行不可能なロボットアプリケーションのコンテキストでどのように使用できるかを説明します。私たちの方法により、ティーチと繰り返しを通じてモバイルマニピュレーターにコマンドを可能にする方法と、以前のインタラクションに関する情報がどのようにモバイルマニピュレーターが引き出しに隠されたオブジェクトを取得できるかを示します。
コード、ビデオ、および対応するデータは、https://behretj.github.io/lostandfoundでアクセスできます。

要約(オリジナル)

Recent approaches have successfully focused on the segmentation of static reconstructions, thereby equipping downstream applications with semantic 3D understanding. However, the world in which we live is dynamic, characterized by numerous interactions between the environment and humans or robotic agents. Static semantic maps are unable to capture this information, and the naive solution of rescanning the environment after every change is both costly and ineffective in tracking e.g. objects being stored away in drawers. With Lost & Found we present an approach that addresses this limitation. Based solely on egocentric recordings with corresponding hand position and camera pose estimates, we are able to track the 6DoF poses of the moving object within the detected interaction interval. These changes are applied online to a transformable scene graph that captures object-level relations. Compared to state-of-the-art object pose trackers, our approach is more reliable in handling the challenging egocentric viewpoint and the lack of depth information. It outperforms the second-best approach by 34% and 56% for translational and orientational error, respectively, and produces visibly smoother 6DoF object trajectories. In addition, we illustrate how the acquired interaction information in the dynamic scene graph can be employed in the context of robotic applications that would otherwise be unfeasible: We show how our method allows to command a mobile manipulator through teach & repeat, and how information about prior interaction allows a mobile manipulator to retrieve an object hidden in a drawer. Code, videos and corresponding data are accessible at https://behretj.github.io/LostAndFound.

arxiv情報

著者 Tjark Behrens,René Zurbrügg,Marc Pollefeys,Zuria Bauer,Hermann Blum
発行日 2025-03-11 09:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs はコメントを受け付けていません

HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents

要約

強化学習(RL)を通じて安全な自律システムを進めるには、パフォーマンスを評価し、方法を分析し、エージェントの能力を評価するために堅牢なベンチマークが必要です。
人間は主に具体化された視覚的知覚に依存して、周囲と安全にナビゲートして相互作用し、RLエージェントにとって貴重な能力となっています。
ただし、既存のビジョンベースの3Dベンチマークは、単純なナビゲーションタスクのみを考慮してください。
この欠点に対処するために、\ textbf {hasard}を紹介します。これは、多様で複雑なタスクのスイートであり、$ \ textbf {ha} $ rness $ \ textbf {sa} $ fe $ \ textbf {r} $ lを$ \ textbf {d}を備えています。
Hasardは、3つの難易度と2つのアクションスペースを備えています。
一般的なベースライン方法の経験的評価は、ベンチマークの複雑さ、独自の課題、報酬コストのトレードオフを示しています。
トップダウンヒートマップでのトレーニング中の視覚化エージェントナビゲーションは、メソッドの学習プロセスに関する洞察を提供します。
難易度を越えて徐々にトレーニングすると、暗黙の学習カリキュラムが提供されます。
Hasardは、エゴセントリックビジョンベースの学習のみを対象とする最初の安全なRLベンチマークであり、現在および将来の安全なRLメソッドの潜在的および境界を探るための費用対効果の高い洞察に満ちた方法を提供します。
環境とベースラインの実装は、https://sites.google.com/view/hasard-bench/でオープンソースを受けています。

要約(オリジナル)

Advancing safe autonomous systems through reinforcement learning (RL) requires robust benchmarks to evaluate performance, analyze methods, and assess agent competencies. Humans primarily rely on embodied visual perception to safely navigate and interact with their surroundings, making it a valuable capability for RL agents. However, existing vision-based 3D benchmarks only consider simple navigation tasks. To address this shortcoming, we introduce \textbf{HASARD}, a suite of diverse and complex tasks to $\textbf{HA}$rness $\textbf{SA}$fe $\textbf{R}$L with $\textbf{D}$oom, requiring strategic decision-making, comprehending spatial relationships, and predicting the short-term future. HASARD features three difficulty levels and two action spaces. An empirical evaluation of popular baseline methods demonstrates the benchmark’s complexity, unique challenges, and reward-cost trade-offs. Visualizing agent navigation during training with top-down heatmaps provides insight into a method’s learning process. Incrementally training across difficulty levels offers an implicit learning curriculum. HASARD is the first safe RL benchmark to exclusively target egocentric vision-based learning, offering a cost-effective and insightful way to explore the potential and boundaries of current and future safe RL methods. The environments and baseline implementations are open-sourced at https://sites.google.com/view/hasard-bench/.

arxiv情報

著者 Tristan Tomilin,Meng Fang,Mykola Pechenizkiy
発行日 2025-03-11 10:05:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents はコメントを受け付けていません

Online 6DoF Global Localisation in Forests using Semantically-Guided Re-Localisation and Cross-View Factor-Graph Optimisation

要約

このペーパーでは、深い意味的に誘導された再局在化とクロスビュー因子グラフの最適化を活用することにより、森林環境での地上ロボットの堅牢なグローバルローカリゼーションとオンライン6DOFポーズ推定のための新しいアプローチであるFGLOC6Dを紹介します。
提案された方法は、GPS分解環境での正確なポイントツーポイントナビゲーションに重要なポーズ推定のために、空中データと地上データを調整することの課題に対処します。
両方の視点から情報を因子グラフフレームワークに統合することにより、当社のアプローチは、ロボットのグローバルな位置とオリエンテーションを効果的に推定します。
さらに、意味的に誘導された回帰損失を組み込むことにより、森林におけるメトリック局在のための深い学習キーポイントの再現性を高めます。
この損失は、安定した識別可能な特徴として機能する木製の構造、例えば木の幹、それによりキーポイントの一貫性を改善し、再局在と呼ぶプロセスであるグローバル登録の成功率を向上させることを促進します。
再ローカリゼーションモジュールと、長期にわたる匂い測定と地盤から天体への因子が住む因子構造とともに、密な天蓋下でのグローバルな局在化が可能になります。
3つの森林シナリオでの広範な実験を通じて、この方法のパフォーマンスを検証し、これらの困難な環境での精度と堅牢性の点で、代替の最先端に対するグローバルなローカリゼーション能力と優位性を実証します。
実験結果は、提案された方法が、境界のある位置決めエラーを備えたドリフトフリーのローカリゼーションを実現し、密な森林を通して信頼できる安全なロボットナビゲーションを確保できることを示しています。

要約(オリジナル)

This paper presents FGLoc6D, a novel approach for robust global localisation and online 6DoF pose estimation of ground robots in forest environments by leveraging deep semantically-guided re-localisation and cross-view factor graph optimisation. The proposed method addresses the challenges of aligning aerial and ground data for pose estimation, which is crucial for accurate point-to-point navigation in GPS-degraded environments. By integrating information from both perspectives into a factor graph framework, our approach effectively estimates the robot’s global position and orientation. Additionally, we enhance the repeatability of deep-learned keypoints for metric localisation in forests by incorporating a semantically-guided regression loss. This loss encourages greater attention to wooden structures, e.g., tree trunks, which serve as stable and distinguishable features, thereby improving the consistency of keypoints and increasing the success rate of global registration, a process we refer to as re-localisation. The re-localisation module along with the factor-graph structure, populated by odometry and ground-to-aerial factors over time, allows global localisation under dense canopies. We validate the performance of our method through extensive experiments in three forest scenarios, demonstrating its global localisation capability and superiority over alternative state-of-the-art in terms of accuracy and robustness in these challenging environments. Experimental results show that our proposed method can achieve drift-free localisation with bounded positioning errors, ensuring reliable and safe robot navigation through dense forests.

arxiv情報

著者 Lucas Carvalho de Lima,Ethan Griffiths,Maryam Haghighat,Simon Denman,Clinton Fookes,Paulo Borges,Michael Brünig,Milad Ramezani
発行日 2025-03-11 10:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Online 6DoF Global Localisation in Forests using Semantically-Guided Re-Localisation and Cross-View Factor-Graph Optimisation はコメントを受け付けていません

SICNav: Safe and Interactive Crowd Navigation using Model Predictive Control and Bilevel Optimization

要約

ロボットは、人間の動きを予測して反応して、衝突せずに群衆の中をナビゲートする必要があります。
多くの既存の方法は、ロボットと人間の動きの間の相互作用を説明せず、ロボットが立ち往生する可能性がある計画から予測を切り離します。
ロボットの動きを共同で解決し、閉ループで群衆の動きを予測するモデル予測制御(MPC)メソッドであるSICNAVを提案します。
群衆の各人間をモデル化して、最適な相互衝突回避(ORCA)スキームに従って、ロボットのローカルプランナーの制約としてそのモデルを埋め込み、バイレベルの非線形MPC最適化問題をもたらします。
KKT変形を使用して、Bilevelの問題を単一のレベルとしてキャストし、非線形ソルバーを使用して最適化します。
MPCメソッドは、単一ロボットマルチヒューマン環境での安全性の制約を明示的に満たす一方で、歩行者の動きに影響を与える可能性があります。
2つのシミュレーション環境でのSICNAVのパフォーマンスと、実際のロボットを使用した屋内実験を分析して、周囲の人間に影響を与える可能性のある安全なロボットの動きを実証します。
また、人間の軌跡データセットでORCAの軌跡予測パフォーマンスを検証します。

要約(オリジナル)

Robots need to predict and react to human motions to navigate through a crowd without collisions. Many existing methods decouple prediction from planning, which does not account for the interaction between robot and human motions and can lead to the robot getting stuck. We propose SICNav, a Model Predictive Control (MPC) method that jointly solves for robot motion and predicted crowd motion in closed-loop. We model each human in the crowd to be following an Optimal Reciprocal Collision Avoidance (ORCA) scheme and embed that model as a constraint in the robot’s local planner, resulting in a bilevel nonlinear MPC optimization problem. We use a KKT-reformulation to cast the bilevel problem as a single level and use a nonlinear solver to optimize. Our MPC method can influence pedestrian motion while explicitly satisfying safety constraints in a single-robot multi-human environment. We analyze the performance of SICNav in two simulation environments and indoor experiments with a real robot to demonstrate safe robot motion that can influence the surrounding humans. We also validate the trajectory forecasting performance of ORCA on a human trajectory dataset.

arxiv情報

著者 Sepehr Samavi,James R. Han,Florian Shkurti,Angela P. Schoellig
発行日 2025-03-11 10:09:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SICNav: Safe and Interactive Crowd Navigation using Model Predictive Control and Bilevel Optimization はコメントを受け付けていません

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

要約

あらゆるオブジェクトをつかむことができる器用な手は、汎用具体化されたインテリジェントロボットの開発に不可欠です。
しかし、器用な手の自由度が高く、オブジェクトの膨大な多様性のために、高品質で使いやすい把握ポーズを堅牢な方法で生成することは重要な課題です。
このホワイトペーパーでは、DexGrasp Anymentを紹介します。これは、拡散ベースの生成モデルのトレーニング段階とサンプリングフェーズの両方に物理的制約を効果的に統合し、ほぼすべてのオープンデータセットで最先端のパフォーマンスを達成する方法です。
さらに、15Kを超える異なるオブジェクトの340万を超える多様な把握ポーズを含む新しい器用な握るデータセットを提示し、普遍的な器用な把握を前進させる可能性を示しています。
メソッドのコードとデータセットはまもなく公開されます。

要約(オリジナル)

A dexterous hand capable of grasping any object is essential for the development of general-purpose embodied intelligent robots. However, due to the high degree of freedom in dexterous hands and the vast diversity of objects, generating high-quality, usable grasping poses in a robust manner is a significant challenge. In this paper, we introduce DexGrasp Anything, a method that effectively integrates physical constraints into both the training and sampling phases of a diffusion-based generative model, achieving state-of-the-art performance across nearly all open datasets. Additionally, we present a new dexterous grasping dataset containing over 3.4 million diverse grasping poses for more than 15k different objects, demonstrating its potential to advance universal dexterous grasping. The code of our method and our dataset will be publicly released soon.

arxiv情報

著者 Yiming Zhong,Qi Jiang,Jingyi Yu,Yuexin Ma
発行日 2025-03-11 10:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness はコメントを受け付けていません

Multitask Reinforcement Learning for Quadcopter Attitude Stabilization and Tracking using Graph Policy

要約

Quadcopterの態度制御には、スムーズな態度追跡と任意の状態からの積極的な安定化の2つのタスクが含まれます。
どちらも追跡の問題として策定できますが、それらの明確な状態空間と制御戦略により、統一された報酬機能が複雑になります。
Isaacgymと並列シミュレーションと、両方のタスクに効果的に対処するためのグラフ畳み込みネットワーク(GCN)ポリシーを活用するマルチタスクディープ補強学習フレームワークを提案します。
当社のマルチタスクソフトアクタークリティック(SAC)アプローチは、シングルタスク方法よりも高速で信頼性の高い学習とより高いサンプル効率を達成します。
Pixhawkフライトコントローラー上に、学習ポリシー(レイヤーあたり24のニューロンを持つコンパクトな2層ネットワーク)を展開することにより、実際の適用性を検証し、追加の計算リソースなしで400 Hzのコントロールを達成します。
https://github.com/robot-perception-group/graphmtsac\_uav/でコードを提供します。

要約(オリジナル)

Quadcopter attitude control involves two tasks: smooth attitude tracking and aggressive stabilization from arbitrary states. Although both can be formulated as tracking problems, their distinct state spaces and control strategies complicate a unified reward function. We propose a multitask deep reinforcement learning framework that leverages parallel simulation with IsaacGym and a Graph Convolutional Network (GCN) policy to address both tasks effectively. Our multitask Soft Actor-Critic (SAC) approach achieves faster, more reliable learning and higher sample efficiency than single-task methods. We validate its real-world applicability by deploying the learned policy – a compact two-layer network with 24 neurons per layer – on a Pixhawk flight controller, achieving 400 Hz control without extra computational resources. We provide our code at https://github.com/robot-perception-group/GraphMTSAC\_UAV/.

arxiv情報

著者 Yu Tang Liu,Afonso Vale,Aamir Ahmad,Rodrigo Ventura,Meysam Basiri
発行日 2025-03-11 10:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Multitask Reinforcement Learning for Quadcopter Attitude Stabilization and Tracking using Graph Policy はコメントを受け付けていません

Collision-Aware Traversability Analysis for Autonomous Vehicles in the Context of Agricultural Robotics

要約

この論文では、農業ロボット工学の安全なナビゲーションのための新しい方法を紹介します。
地球環境の課題が激化するにつれて、ロボット工学は、食料生産の需要の増加を満たしながら、化学的使用を減らすための強力なソリューションを提供します。
ただし、構造化されていない農業環境で動作するロボットの自律性と回復力を確保することには、重要な課題が残っています。
作物や背の高い草などの障害物は、変形可能なもので、硬直した障害と比較して、安全に横断可能であると特定する必要があります。
これに対処するために、LIDARとマルチスペクトルカメラを使用して再構築された3Dスペクトルマップに基づいた新しいトラバース性分析方法を提案します。
このアプローチにより、ロボットは、変形可能な障害物との安全な衝突と危険な衝突を区別できます。
植生検出のためのマルチスペクトルメトリックの包括的な評価を実行し、これらのメトリックを拡張環境マップに組み込みます。
このマップを利用して、ロボットの重量とサイズを説明する物理ベースの移動性メトリックを計算し、変形可能な障害に対する安全なナビゲーションを確保します。

要約(オリジナル)

In this paper, we introduce a novel method for safe navigation in agricultural robotics. As global environmental challenges intensify, robotics offers a powerful solution to reduce chemical usage while meeting the increasing demands for food production. However, significant challenges remain in ensuring the autonomy and resilience of robots operating in unstructured agricultural environments. Obstacles such as crops and tall grass, which are deformable, must be identified as safely traversable, compared to rigid obstacles. To address this, we propose a new traversability analysis method based on a 3D spectral map reconstructed using a LIDAR and a multispectral camera. This approach enables the robot to distinguish between safe and unsafe collisions with deformable obstacles. We perform a comprehensive evaluation of multispectral metrics for vegetation detection and incorporate these metrics into an augmented environmental map. Utilizing this map, we compute a physics-based traversability metric that accounts for the robot’s weight and size, ensuring safe navigation over deformable obstacles.

arxiv情報

著者 Florian Philippe,Johann Laconte,Pierre-Jean Lapray,Matthias Spisser,Jean-Philippe Lauffenburger
発行日 2025-03-11 11:01:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Collision-Aware Traversability Analysis for Autonomous Vehicles in the Context of Agricultural Robotics はコメントを受け付けていません

Distillation-PPO: A Novel Two-Stage Reinforcement Learning Framework for Humanoid Robot Perceptive Locomotion

要約

近年、ヒューマノイドロボットは、環境と人間のような特性に対する適応性が高いため、学界と産業の両方から大きな注目を集めています。
補強学習の急速な進歩により、ヒューマノイドロボットのウォーキングコントロールが大幅に進歩しました。
ただし、既存の方法は、複雑な環境や不規則な地形を扱う際に依然として課題に直面しています。
知覚的な移動の分野では、既存のアプローチは一般に2段階の方法とエンドツーエンドの方法に分割されます。
2段階の方法最初に、シミュレートされた環境で教師ポリシーを訓練し、次にDaggerなどの蒸留技術を使用して、学習した特権情報を学生ポリシーに潜在的な特徴または行動として転送します。
一方、エンドツーエンドの方法は、特権情報の学習を控え、強化学習を通じて部分的に観察可能なマルコフ決定プロセス(POMDP)からポリシーを直接学習します。
ただし、教師ポリシーからの監督が不足しているため、エンドツーエンドの方法はトレーニングの困難に直面し、実際のアプリケーションで不安定なパフォーマンスを示します。
このペーパーでは、学生ポリシーを正規化および監督するために、完全に観察可能なマルコフ決定プロセス(MDP)で学んだ教師ポリシーの利点を組み合わせた革新的な2段階の知覚運動フレームワークを提案します。
同時に、補強学習の特性を活用して、学生ポリシーがPOMDPで学習を続けることができることを保証し、それによってモデルの上限が強化されます。
実験結果は、2段階のトレーニングフレームワークがシミュレートされた環境でより高いトレーニング効率と安定性を達成し、現実世界のアプリケーションでより良い堅牢性と一般化機能を示すことを示しています。

要約(オリジナル)

In recent years, humanoid robots have garnered significant attention from both academia and industry due to their high adaptability to environments and human-like characteristics. With the rapid advancement of reinforcement learning, substantial progress has been made in the walking control of humanoid robots. However, existing methods still face challenges when dealing with complex environments and irregular terrains. In the field of perceptive locomotion, existing approaches are generally divided into two-stage methods and end-to-end methods. Two-stage methods first train a teacher policy in a simulated environment and then use distillation techniques, such as DAgger, to transfer the privileged information learned as latent features or actions to the student policy. End-to-end methods, on the other hand, forgo the learning of privileged information and directly learn policies from a partially observable Markov decision process (POMDP) through reinforcement learning. However, due to the lack of supervision from a teacher policy, end-to-end methods often face difficulties in training and exhibit unstable performance in real-world applications. This paper proposes an innovative two-stage perceptive locomotion framework that combines the advantages of teacher policies learned in a fully observable Markov decision process (MDP) to regularize and supervise the student policy. At the same time, it leverages the characteristics of reinforcement learning to ensure that the student policy can continue to learn in a POMDP, thereby enhancing the model’s upper bound. Our experimental results demonstrate that our two-stage training framework achieves higher training efficiency and stability in simulated environments, while also exhibiting better robustness and generalization capabilities in real-world applications.

arxiv情報

著者 Qiang Zhang,Gang Han,Jingkai Sun,Wen Zhao,Chenghao Sun,Jiahang Cao,Jiaxu Wang,Yijie Guo,Renjing Xu
発行日 2025-03-11 11:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Distillation-PPO: A Novel Two-Stage Reinforcement Learning Framework for Humanoid Robot Perceptive Locomotion はコメントを受け付けていません

General-Purpose Aerial Intelligent Agents Empowered by Large Language Models

要約

大規模な言語モデル(LLMS)の出現は、無人航空機(UAVS)の新しいフロンティアを開きますが、既存のシステムは、ハードウェアソフトウェアの共同設定の課題により、事前定義されたタスクに限定されたままです。
このペーパーでは、LLMベースの推論とロボットの自律性を緊密に統合することにより、オープンワールドタスクの実行が可能な最初の空中インテリジェントエージェントを紹介します。
当社のハードウェアソフトウェアの共同設計システムは、2つの基本的な制限に対処します。(1)220Wピーク電力での14B-Parameterモデルの5-6トークン/SEC推論を達成するエッジ最適化コンピューティングプラットフォームを介したオンボードLLM操作。
(2)速いリアクティブ制御(状態推定、マッピング、障害物回避、およびモーション計画)で遅い審議計画(LLMタスク計画)を相乗する双方向の認知アーキテクチャ。
当社のプロトタイプを使用して予備的な結果を通じて検証されたこのシステムは、サトウキビの監視、電源グリッド検査、鉱山トンネル探査、生物学的観察アプリケーションなど、コミュニケーションが制約されている環境で信頼できるタスク計画とシーンの理解を示しています。
この作業は、具体化された航空人工知能のための新しいフレームワークを確立し、オープン環境でのタスク計画とロボットの自律性のギャップを埋めます。

要約(オリジナル)

The emergence of large language models (LLMs) opens new frontiers for unmanned aerial vehicle (UAVs), yet existing systems remain confined to predefined tasks due to hardware-software co-design challenges. This paper presents the first aerial intelligent agent capable of open-world task execution through tight integration of LLM-based reasoning and robotic autonomy. Our hardware-software co-designed system addresses two fundamental limitations: (1) Onboard LLM operation via an edge-optimized computing platform, achieving 5-6 tokens/sec inference for 14B-parameter models at 220W peak power; (2) A bidirectional cognitive architecture that synergizes slow deliberative planning (LLM task planning) with fast reactive control (state estimation, mapping, obstacle avoidance, and motion planning). Validated through preliminary results using our prototype, the system demonstrates reliable task planning and scene understanding in communication-constrained environments, such as sugarcane monitoring, power grid inspection, mine tunnel exploration, and biological observation applications. This work establishes a novel framework for embodied aerial artificial intelligence, bridging the gap between task planning and robotic autonomy in open environments.

arxiv情報

著者 Ji Zhao,Xiao Lin
発行日 2025-03-11 11:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | General-Purpose Aerial Intelligent Agents Empowered by Large Language Models はコメントを受け付けていません