Dynamic Legged Ball Manipulation on Rugged Terrains with Hierarchical Reinforcement Learning

要約

複雑な地形での四足ロボットの動的な局所操作機能を進めることは、多様なタスクを実行するために重要です。
具体的には、頑丈な環境での動的なボール操作には、2つの重要な課題があります。
1つ目は、地形のトラバーサルとボールコントロールをシームレスに統合するための明確な動きのモダリティを調整することです。
2つ目は、効率的な政策収束を妨げるエンドツーエンドの深い強化学習におけるまばらな報酬を克服することです。
これらの課題に対処するために、階層的強化学習フレームワークを提案します。
固有受容データとボールの位置によって通知される高レベルのポリシーは、ボールドリブルやラフな地形ナビゲーションなどの事前に訓練された低レベルのスキルを適応的に切り替えます。
さらに、非アクティブなスキルから勾配を抑制し、重要なスキル学習を強化するための動的なスキル重視のポリシー最適化を提案します。
シミュレーションと現実世界の実験の両方で、私たちの方法は、頑丈な地形を横切る動的なボール操作におけるベースラインアプローチよりも優れていることを検証し、困難な環境での有効性を強調しています。
ビデオは当社のWebサイトにあります:Dribble-hrl.github.io。

要約(オリジナル)

Advancing the dynamic loco-manipulation capabilities of quadruped robots in complex terrains is crucial for performing diverse tasks. Specifically, dynamic ball manipulation in rugged environments presents two key challenges. The first is coordinating distinct motion modalities to integrate terrain traversal and ball control seamlessly. The second is overcoming sparse rewards in end-to-end deep reinforcement learning, which impedes efficient policy convergence. To address these challenges, we propose a hierarchical reinforcement learning framework. A high-level policy, informed by proprioceptive data and ball position, adaptively switches between pre-trained low-level skills such as ball dribbling and rough terrain navigation. We further propose Dynamic Skill-Focused Policy Optimization to suppress gradients from inactive skills and enhance critical skill learning. Both simulation and real-world experiments validate that our methods outperform baseline approaches in dynamic ball manipulation across rugged terrains, highlighting its effectiveness in challenging environments. Videos are on our website: dribble-hrl.github.io.

arxiv情報

著者 Dongjie Zhu,Zhuo Yang,Tianhang Wu,Luzhou Ge,Xuesong Li,Qi Liu,Xiang Li
発行日 2025-04-21 09:38:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dynamic Legged Ball Manipulation on Rugged Terrains with Hierarchical Reinforcement Learning はコメントを受け付けていません

GeoNav: Empowering MLLMs with Explicit Geospatial Reasoning Abilities for Language-Goal Aerial Navigation

要約

言語ゴール航空ナビゲーションは、具体化されたAIにおける重大な課題であり、UAVがテキスト仕様に基づいて都市ブロックなどの複雑な環境でターゲットをローカライズすることを要求します。
多くの場合、屋内ナビゲーションから適合した既存の方法は、視野が限られているため、オブジェクト間の意味的な曖昧さ、構造化された空間推論の欠如により、拡大するのに苦労します。
この作業では、長距離ナビゲーションを有効にするための地理空間的に認識されているマルチモーダルエージェントであるGeonavを提案します。
Geonavは、3つのフェーズランドマークナビゲーション、ターゲット検索、および正確なローカリゼーションを模倣して、人間の粗からファインまでの空間戦略を模倣しています。
このような推論をサポートするために、2つの異なるタイプの空間メモリを動的に構築します。
1つ目は、以前のテキストの地理的知識を融合させ、視覚的な手がかりを具体化し、ランドマーク地域への高速ナビゲーションのためにトップダウンの注釈付き形式に融合したグローバルであるが概略的な認知マップです。
2つ目は、明確なターゲットローカリゼーションに使用されるブロック、ランドマーク、およびオブジェクト間の階層的な空間的関係を表すローカルで繊細なシーングラフです。
この構造化された表現に加えて、Geonavは、段階全体で効率的で解釈可能な意思決定を備えたマルチモーダルの大手言語モデルを可能にするために、空間的に認識されたマルチモーダルチェーンのプロンプトメカニズムを採用しています。
CityNav Urban Navigation Benchmarkでは、Geonavは、成功率が最大12.53%の現在の最先端を上回り、ハードレベルのタスクであってもナビゲーション効率を大幅に向上させます。
アブレーション研究は、各モジュールの重要性を強調し、地理空間表現と粗から洗練された推論がUAVナビゲーションを強化する方法を紹介します。

要約(オリジナル)

Language-goal aerial navigation is a critical challenge in embodied AI, requiring UAVs to localize targets in complex environments such as urban blocks based on textual specification. Existing methods, often adapted from indoor navigation, struggle to scale due to limited field of view, semantic ambiguity among objects, and lack of structured spatial reasoning. In this work, we propose GeoNav, a geospatially aware multimodal agent to enable long-range navigation. GeoNav operates in three phases-landmark navigation, target search, and precise localization-mimicking human coarse-to-fine spatial strategies. To support such reasoning, it dynamically builds two different types of spatial memory. The first is a global but schematic cognitive map, which fuses prior textual geographic knowledge and embodied visual cues into a top-down, annotated form for fast navigation to the landmark region. The second is a local but delicate scene graph representing hierarchical spatial relationships between blocks, landmarks, and objects, which is used for definite target localization. On top of this structured representation, GeoNav employs a spatially aware, multimodal chain-of-thought prompting mechanism to enable multimodal large language models with efficient and interpretable decision-making across stages. On the CityNav urban navigation benchmark, GeoNav surpasses the current state-of-the-art by up to 12.53% in success rate and significantly improves navigation efficiency, even in hard-level tasks. Ablation studies highlight the importance of each module, showcasing how geospatial representations and coarse-to-fine reasoning enhance UAV navigation.

arxiv情報

著者 Haotian Xu,Yue Hu,Chen Gao,Zhengqiu Zhu,Yong Zhao,Yong Li,Quanjun Yin
発行日 2025-04-21 10:45:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GeoNav: Empowering MLLMs with Explicit Geospatial Reasoning Abilities for Language-Goal Aerial Navigation はコメントを受け付けていません

TelePreview: A User-Friendly Teleoperation System with Virtual Arm Assistance for Enhanced Effectiveness

要約

テレオ操作は、ロボットデータを収集するための効果的な方法を提供します。これは、デモンストレーションから学ぶために重要です。
この分野では、テレオ操作はいくつかの重要な課題に直面しています。新しいユーザーにとってユーザーフレンドリー、安全保証、さまざまなプラットフォームでの移転可能性です。
ロボットを訓練するためにテレオ操作によって実際のロボットの器用な操作データを収集することは、人間とロボットの手の形態学的な違いにより、多様なタスクで印象的な結果を示していますが、新しいユーザーがアクションマッピングを理解するのは難しいだけでなく、運用中の潜在的な安全性の懸念を引き起こします。
これらの制限に対処するために、Telepreviewを紹介します。
このテレオ操作システムは、人間のユーザー入力に基づいたロボットアクションに関するリアルタイムの視覚的フィードバックを提供し、合計ハードウェアコストは1,000ドル未満です。
Telepreviewを使用すると、ユーザーの次の動きの結果を表す仮想ロボットをユーザーに表示できます。
コマンドの視覚化と実際の実行を柔軟に切り替えることを可能にすることにより、このシステムは新しいユーザーが迅速かつ安全に実証する方法を学ぶのに役立ちます。
5つのタスクで他のテレオ操作システムよりも優れていることを実証し、その使いやすさを強調し、多様なロボットプラットフォーム全体でその簡単な展開を強調しています。
当社のウェブサイトhttps://nus-lins-lab.github.io/telepreview-web/でコードと展開ドキュメントをリリースします。

要約(オリジナル)

Teleoperation provides an effective way to collect robot data, which is crucial for learning from demonstrations. In this field, teleoperation faces several key challenges: user-friendliness for new users, safety assurance, and transferability across different platforms. While collecting real robot dexterous manipulation data by teleoperation to train robots has shown impressive results on diverse tasks, due to the morphological differences between human and robot hands, it is not only hard for new users to understand the action mapping but also raises potential safety concerns during operation. To address these limitations, we introduce TelePreview. This teleoperation system offers real-time visual feedback on robot actions based on human user inputs, with a total hardware cost of less than $1,000. TelePreview allows the user to see a virtual robot that represents the outcome of the user’s next movement. By enabling flexible switching between command visualization and actual execution, this system helps new users learn how to demonstrate quickly and safely. We demonstrate that it outperforms other teleoperation systems across five tasks, emphasize its ease of use, and highlight its straightforward deployment across diverse robotic platforms. We release our code and a deployment document on our website https://nus-lins-lab.github.io/telepreview-web/.

arxiv情報

著者 Jingxiang Guo,Jiayu Luo,Zhenyu Wei,Yiwen Hou,Zhixuan Xu,Xiaoyi Lin,Chongkai Gao,Lin Shao
発行日 2025-04-21 11:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | TelePreview: A User-Friendly Teleoperation System with Virtual Arm Assistance for Enhanced Effectiveness はコメントを受け付けていません

Robust Planning and Control of Omnidirectional MRAVs for Aerial Communications in Wireless Networks

要約

新しいクラスのマルチローター航空車両(MRAVS)は、全方向性Mravs(O-Mravs)として知られており、3Dの位置と方向を独立して制御する能力に注目を集めています。
この機能は、空中通信ネットワークの堅牢な計画と制御を強化し、追加の機械的コンポーネントなしでより適応的な軌道計画と正確なアンテナアライメントを可能にします。
これらの機能は、風や干渉などの乱れが通信の安定性に影響する不確実な環境で特に価値があります。
このペーパーでは、堅牢な空中ネットワーク計画のコンテキストでO-Mravsを調べ、それらをより一般的な過少作用型MRAV(U-Mravs)と比較します。
物理層のセキュリティ、光学通信、ネットワークの高密度化などの主要なアプリケーションが強調されており、動的通信シナリオの信頼性と効率を改善するO-Mravsが可能性を示しています。

要約(オリジナル)

A new class of Multi-Rotor Aerial Vehicles (MRAVs), known as omnidirectional MRAVs (o-MRAVs), has gained attention for their ability to independently control 3D position and orientation. This capability enhances robust planning and control in aerial communication networks, enabling more adaptive trajectory planning and precise antenna alignment without additional mechanical components. These features are particularly valuable in uncertain environments, where disturbances such as wind and interference affect communication stability. This paper examines o-MRAVs in the context of robust aerial network planning, comparing them with the more common under-actuated MRAVs (u-MRAVs). Key applications, including physical layer security, optical communications, and network densification, are highlighted, demonstrating the potential of o-MRAVs to improve reliability and efficiency in dynamic communication scenarios.

arxiv情報

著者 Giuseppe Silano,Daniel Bonilla Licea,Hajar El Hammouti,Mounir Ghogho,and Martin Saska
発行日 2025-04-21 13:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robust Planning and Control of Omnidirectional MRAVs for Aerial Communications in Wireless Networks はコメントを受け付けていません

Automatic Generation of Aerobatic Flight in Complex Environments via Diffusion Models

要約

複雑な環境で顕著な曲芸飛行を行うには、事前に重要な操作の手動設計が必要です。これは、実行される軌道の地平線が長くなるにつれて複雑で時間がかかります。
このペーパーでは、拡散モデルを活用して好気性軌道生成を自動化および拡大する新しいフレームワークを紹介します。
私たちの主要な革新は、複雑な操作が好気性プリミティブへの分解です。これは、構成要素として機能する短いフレームシーケンスであり、扱いやすい軌道合成のための重要な好気性挙動を特徴としています。
このモデルは、ユーザー編集可能な軌道生成を可能にするために統合された追加の条件付き入力(ターゲットウェイポイントとオプションのアクション制約)を使用して、動きの連続性を確保するための動的なプライアーとしての履歴軌道観測を使用して、好気性プリミティブを学習します。
モデル推論中、分類器ガイダンスはバッチサンプリングを組み込んで、障害物回避を実現します。
さらに、生成された結果は、動的な実現可能性を確保するために、空間的軌跡の最適化を備えた後処理によって改良されます。
広範なシミュレーションと現実世界の実験により、当社の方法の主要なコンポーネント設計が検証されており、長期のエアロバティック飛行を実現するために実際のドローンに展開する可能性があります。

要約(オリジナル)

Performing striking aerobatic flight in complex environments demands manual designs of key maneuvers in advance, which is intricate and time-consuming as the horizon of the trajectory performed becomes long. This paper presents a novel framework that leverages diffusion models to automate and scale up aerobatic trajectory generation. Our key innovation is the decomposition of complex maneuvers into aerobatic primitives, which are short frame sequences that act as building blocks, featuring critical aerobatic behaviors for tractable trajectory synthesis. The model learns aerobatic primitives using historical trajectory observations as dynamic priors to ensure motion continuity, with additional conditional inputs (target waypoints and optional action constraints) integrated to enable user-editable trajectory generation. During model inference, classifier guidance is incorporated with batch sampling to achieve obstacle avoidance. Additionally, the generated outcomes are refined through post-processing with spatial-temporal trajectory optimization to ensure dynamical feasibility. Extensive simulations and real-world experiments have validated the key component designs of our method, demonstrating its feasibility for deploying on real drones to achieve long-horizon aerobatic flight.

arxiv情報

著者 Yuhang Zhong,Anke Zhao,Tianyue Wu,Tingrui Zhang,Fei Gao
発行日 2025-04-21 14:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Automatic Generation of Aerobatic Flight in Complex Environments via Diffusion Models はコメントを受け付けていません

Communication and Energy-Aware Multi-UAV Coverage Path Planning for Networked Operations

要約

このペーパーでは、協力的な捜索救助や監視ミッションなど、継続的なUAV間コミュニケーションを必要とするシナリオのコミュニケーションおよびエネルギー認識マルチUAVカバレッジパス計画(MCPP)方法を紹介します。
エネルギー、時間、またはカバレッジ効率に焦点を当てた既存のMCPPソリューションとは異なり、提案された方法は、エネルギーとUAV間の接続性半径の指定された組み合わせを最小限に抑えるカバレッジパスを生成します。
提案されたアルゴリズムの主要な機能には、簡素化され、検証されたエネルギー消費モデル、効率的な接続性半径推定器、および不規則および障害物が豊富な領域で最適なパスを検索できる最適化フレームワークが含まれます。
提案されたアルゴリズムの有効性と有用性は、非飛行ゾーンの有無にかかわらず、さまざまなテスト領域のシミュレーションを通じて検証されます。
3-UAVシステムでの実際の実験は、推定された通信範囲要件と実際の通信範囲の要件の間の著しく高い99%の一致を示しています。

要約(オリジナル)

This paper presents a communication and energy-aware multi-UAV Coverage Path Planning (mCPP) method for scenarios requiring continuous inter-UAV communication, such as cooperative search and rescue and surveillance missions. Unlike existing mCPP solutions that focus on energy, time, or coverage efficiency, the proposed method generates coverage paths that minimize a specified combination of energy and inter-UAV connectivity radius. Key features of the proposed algorithm include a simplified and validated energy consumption model, an efficient connectivity radius estimator, and an optimization framework that enables us to search for the optimal paths over irregular and obstacle-rich regions. The effectiveness and utility of the proposed algorithm is validated through simulations on various test regions with and without no-fly-zones. Real-world experiments on a three-UAV system demonstrate the remarkably high 99% match between the estimated and actual communication range requirement.

arxiv情報

著者 Mohamed Samshad,Ketan Rajawat
発行日 2025-04-21 15:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Communication and Energy-Aware Multi-UAV Coverage Path Planning for Networked Operations はコメントを受け付けていません

SPARK-Remote: A Cost-Effective System for Remote Bimanual Robot Teleoperation

要約

ロボットテレオペレーションにより、完全な自律性が困難な環境でのロボットシステムを人間の制御が可能にします。
低コストの遠隔操作デバイスとVR/ARテクノロジーの最近の進歩により、特に両手ロボットマニピュレーターのアクセシビリティが拡大しました。
ただし、対面からリモートテレオ操作への移行は、タスクのパフォーマンスに課題をもたらします。
双方向ロボットを動作させるための運動的にスケーリングされた低コストの遠隔操作システムであるSparkを紹介します。
その有効性は、3D SpacemouseやVR/ARコントローラーなどの既存のテクノロジーと比較されます。
さらに、SparkをSpark Remoteに拡張し、触覚グローブとリモートテレオ操作の力コントローラーを使用してセンサーベースの力フィードバックを統合します。
効果的な遠隔操作モードをテストするために、位置の精度、回転精度、ワークスペース内の大きな動き、および双方向のコラボレーションなど、運用特性を特徴とする5つの双方向操作タスクで、スパークおよびスパークリモートのバリエーションを評価します。
私たちの調査結果は、現実世界のアプリケーションの低コストの遠隔操作インターフェイスの改善に関する洞察を提供します。
補足資料、追加の実験、および定性的な結果については、プロジェクトWebページをご覧ください:https://bit.ly/41efcja

要約(オリジナル)

Robot teleoperation enables human control over robotic systems in environments where full autonomy is challenging. Recent advancements in low-cost teleoperation devices and VR/AR technologies have expanded accessibility, particularly for bimanual robot manipulators. However, transitioning from in-person to remote teleoperation presents challenges in task performance. We introduce SPARK, a kinematically scaled, low-cost teleoperation system for operating bimanual robots. Its effectiveness is compared to existing technologies like the 3D SpaceMouse and VR/AR controllers. We further extend SPARK to SPARK-Remote, integrating sensor-based force feedback using haptic gloves and a force controller for remote teleoperation. We evaluate SPARK and SPARK-Remote variants on 5 bimanual manipulation tasks which feature operational properties – positional precision, rotational precision, large movements in the workspace, and bimanual collaboration – to test the effective teleoperation modes. Our findings offer insights into improving low-cost teleoperation interfaces for real-world applications. For supplementary materials, additional experiments, and qualitative results, visit the project webpage: https://bit.ly/41EfcJa

arxiv情報

著者 Adam Imdieke,Karthik Desingh
発行日 2025-04-21 16:01:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SPARK-Remote: A Cost-Effective System for Remote Bimanual Robot Teleoperation はコメントを受け付けていません

Immersive Teleoperation Framework for Locomanipulation Tasks

要約

ロボット局所操作における最近の進歩により、仮想現実(VR)を活用して、テレオ操作システムの精度と没入感を高め、2Dカメラフィードとジョイスティックコントロールに依存する従来の方法を大幅に上回っています。
これらの進歩にもかかわらず、特にさまざまなセットアップ間のユーザーエクスペリエンスに関する課題は残っています。
このペーパーでは、モバイルプラットフォームに統合されたロボットマニピュレーター向けに設計された新しいVRベースのテレオ操作フレームワークを紹介します。
私たちのアプローチの中心は、操作可能なシーンをVR環境に抽象化する手法であるガウスのスプラッティングの適用です。
ユーザーは、まるで実際のロボットと対話して、テレオ操作タスクのエンゲージメントと有効性の両方を強化するかのように、仮想シーン内でナビゲートおよび操作できます。
広範なユーザー調査では、当社のアプローチを検証し、大幅なユーザビリティと効率の改善を実証しています。
参加者の3分の2(66%)がタスクをより速く完了し、平均時間短縮を達成しました。
さらに、93%がガウスのスプラットインターフェイスを全体的に好み、将来の使用に関する全会一致(100%)の推奨事項があり、精度、応答性、状況認識の改善を強調しました。
最後に、SPLATベースのVRインターフェイスの実用的な機能と汎用性を紹介する2つの異なるアプリケーションシナリオでの実際の実験を通じて、フレームワークの有効性を実証します。

要約(オリジナル)

Recent advancements in robotic loco-manipulation have leveraged Virtual Reality (VR) to enhance the precision and immersiveness of teleoperation systems, significantly outperforming traditional methods reliant on 2D camera feeds and joystick controls. Despite these advancements, challenges remain, particularly concerning user experience across different setups. This paper introduces a novel VR-based teleoperation framework designed for a robotic manipulator integrated onto a mobile platform. Central to our approach is the application of Gaussian splatting, a technique that abstracts the manipulable scene into a VR environment, thereby enabling more intuitive and immersive interactions. Users can navigate and manipulate within the virtual scene as if interacting with a real robot, enhancing both the engagement and efficacy of teleoperation tasks. An extensive user study validates our approach, demonstrating significant usability and efficiency improvements. Two-thirds (66%) of participants completed tasks faster, achieving an average time reduction of 43%. Additionally, 93% preferred the Gaussian Splat interface overall, with unanimous (100%) recommendations for future use, highlighting improvements in precision, responsiveness, and situational awareness. Finally, we demonstrate the effectiveness of our framework through real-world experiments in two distinct application scenarios, showcasing the practical capabilities and versatility of the Splat-based VR interface.

arxiv情報

著者 Takuya Boehringer,Jonathan Embley-Riches,Karim Hammoud,Valerio Modugno,Dimitrios Kanoulas
発行日 2025-04-21 17:00:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Immersive Teleoperation Framework for Locomanipulation Tasks はコメントを受け付けていません

Cascade IPG Observer for Underwater Robot State Estimation

要約

このペーパーでは、慣性状態推定のための新しいカスケード非線形オブザーバーフレームワークを紹介します。
外部のローカリゼーションが利用できない場合、またはセンサーの停止が発生した場合の中間状態推定の問題に取り組みます。
提案されたオブザーバーは、最近開発された繰り返しの前処理勾配降下(IPG)アルゴリズムに基づいた2つの非線形オブザーバーで構成されています。
最初のオブザーバーがQuaternionベースのIPGであるIMU前統合モデルを介して入力を取得します。
最初のオブザーバーの出力は、2番目のオブザーバーの入力であり、速度とその結果、位置を推定します。
提案されたオブザーバーは、公共の水中データセットとロボットプラットフォームを使用した実際の実験で検証されています。
推定は、拡張カルマンフィルター(EKF)および不変拡張カルマンフィルター(INEKF)と比較されます。
結果は、私たちの方法が、位置の精度と低い分散に関するこれらの方法よりも優れていることを示しています。

要約(オリジナル)

This paper presents a novel cascade nonlinear observer framework for inertial state estimation. It tackles the problem of intermediate state estimation when external localization is unavailable or in the event of a sensor outage. The proposed observer comprises two nonlinear observers based on a recently developed iteratively preconditioned gradient descent (IPG) algorithm. It takes the inputs via an IMU preintegration model where the first observer is a quaternion-based IPG. The output for the first observer is the input for the second observer, estimating the velocity and, consequently, the position. The proposed observer is validated on a public underwater dataset and a real-world experiment using our robot platform. The estimation is compared with an extended Kalman filter (EKF) and an invariant extended Kalman filter (InEKF). Results demonstrate that our method outperforms these methods regarding better positional accuracy and lower variance.

arxiv情報

著者 Kaustubh Joshi,Tianchen Liu,Nikhil Chopra
発行日 2025-04-21 17:10:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Cascade IPG Observer for Underwater Robot State Estimation はコメントを受け付けていません

Interpretable Locomotion Prediction in Construction Using a Memory-Driven LLM Agent With Chain-of-Thought Reasoning

要約

建設タスクは本質的に予測不可能であり、動的な環境と安全性の高い要求が労働者に重大なリスクをもたらします。
Exoskeletonsは潜在的な支援を提供しますが、多様な移動モード全体で正確な意図的な認識なしに動揺します。
このホワイトペーパーでは、そのような設定での外骨格支援の改善を目的としたメモリシステムで増強された大規模な言語モデル(LLMS)を活用する移動予測エージェントを紹介します。
マルチモーダル入力 – 音声コマンドとスマートグラスからの視覚データ – エージェントは、知覚モジュール、短期メモリ(STM)、長期メモリ(LTM)、および洗練モジュールを統合して、移動モードを効果的に予測します。
評価により、メモリなしで0.73のベースライン加重F1スコアが明らかになり、STMで0.81に上昇し、STMとLTMの両方で0.90に達し、あいまいで安全性の高いコマンドで優れています。
Brierスコアが0.244から0.090に低下し、ECEが0.222から0.044に低下することを含むキャリブレーションメトリックは、信頼性の向上を確認します。
このフレームワークは、ダイナミック産業の適応補助システムを約束して、より安全で高レベルの人間とエキゾスケレトンのコラボレーションをサポートしています。

要約(オリジナル)

Construction tasks are inherently unpredictable, with dynamic environments and safety-critical demands posing significant risks to workers. Exoskeletons offer potential assistance but falter without accurate intent recognition across diverse locomotion modes. This paper presents a locomotion prediction agent leveraging Large Language Models (LLMs) augmented with memory systems, aimed at improving exoskeleton assistance in such settings. Using multimodal inputs – spoken commands and visual data from smart glasses – the agent integrates a Perception Module, Short-Term Memory (STM), Long-Term Memory (LTM), and Refinement Module to predict locomotion modes effectively. Evaluation reveals a baseline weighted F1-score of 0.73 without memory, rising to 0.81 with STM, and reaching 0.90 with both STM and LTM, excelling with vague and safety-critical commands. Calibration metrics, including a Brier Score drop from 0.244 to 0.090 and ECE from 0.222 to 0.044, affirm improved reliability. This framework supports safer, high-level human-exoskeleton collaboration, with promise for adaptive assistive systems in dynamic industries.

arxiv情報

著者 Ehsan Ahmadi,Chao Wang
発行日 2025-04-21 17:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Interpretable Locomotion Prediction in Construction Using a Memory-Driven LLM Agent With Chain-of-Thought Reasoning はコメントを受け付けていません