Physical Reservoir Computing in Hook-Shaped Rover Wheel Spokes for Real-Time Terrain Identification

要約

未知の環境での効果的な地形検出は、安全で効率的なロボットナビゲーションに不可欠です。
従来の方法は、多くの場合、計算集中的なデータ処理に依存しており、搭載能力の広範な容量を必要とし、ローバーのリアルタイムパフォーマンスを制限します。
この研究では、リアルタイムの地形識別のためにローバーホイールスポークに埋め込まれた、物理的な貯水池コンピューティングとピエゾ電気センサーを組み合わせた新しいアプローチを提示します。
ホイールのダイナミクスを活用することにより、地形誘発性の振動は、機械学習ベースの分類のために高次元の特徴に変換されます。
実験結果は、ホイールスポークに3つのセンサーを戦略的に配置すると、90 $ \%$分類の精度が達成され、提案された方法の精度と実現可能性が示されることが示されています。
また、実験結果は、システムが既知の地形を効果的に区別し、学習したカテゴリとの類似性を分析することにより、未知の地形を特定できることを示しました。
この方法は、非構造化された環境でのリアルタイムの地形分類と粗さの推定のための堅牢で低電力フレームワークを提供し、ローバーの自律性と適応性を高めます。

要約(オリジナル)

Effective terrain detection in unknown environments is crucial for safe and efficient robotic navigation. Traditional methods often rely on computationally intensive data processing, requiring extensive onboard computational capacity and limiting real-time performance for rovers. This study presents a novel approach that combines physical reservoir computing with piezoelectric sensors embedded in rover wheel spokes for real-time terrain identification. By leveraging wheel dynamics, terrain-induced vibrations are transformed into high-dimensional features for machine learning-based classification. Experimental results show that strategically placing three sensors on the wheel spokes achieves 90$\%$ classification accuracy, which demonstrates the accuracy and feasibility of the proposed method. The experiment results also showed that the system can effectively distinguish known terrains and identify unknown terrains by analyzing their similarity to learned categories. This method provides a robust, low-power framework for real-time terrain classification and roughness estimation in unstructured environments, enhancing rover autonomy and adaptability.

arxiv情報

著者 Xiao Jin,Zihan Wang,Zhenhua Yu,Changrak Choi,Kalind Carpenter,Thrishantha Nanayakkara
発行日 2025-04-17 21:29:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models

要約

人間のビデオから操作タスクを実行することを学ぶことは、ロボットを教えるための有望なアプローチです。
ただし、多くの操作タスクでは、視覚データだけがキャプチャできない力など、タスクの実行中に制御パラメーターを変更する必要があります。
この作業では、人間の筋肉活動を測定するアームバンドなどのセンシングデバイスを活用し、音を記録するマイクを測定し、人間の操作プロセスの詳細をキャプチャし、ロボットがタスク計画を抽出し、パラメーターを制御して同じタスクを実行できるようにします。
これを達成するために、筋肉または音声信号と組み合わせたビデオ(ビデオ)のビデオについて、ビジョン言語モデルがマルチモーダルの人間のデモデータについて推論できるようにするプロンプト戦略(COM)を紹介します。
各モダリティから情報を徐々に統合することにより、COMはタスク計画を改良し、詳細な制御パラメーターを生成し、ロボットが単一のマルチモーダルの人間ビデオプロンプトに基づいて操作タスクを実行できるようにします。
私たちの実験は、COMがベースラインと比較してタスク計画と制御パラメーターを抽出するための精度の3倍の改善を提供し、実際のロボット実験で新しいタスクのセットアップとオブジェクトに強力な一般化を提供することを示しています。
ビデオとコードはhttps://chain-of-modality.github.ioで入手できます

要約(オリジナル)

Learning to perform manipulation tasks from human videos is a promising approach for teaching robots. However, many manipulation tasks require changing control parameters during task execution, such as force, which visual data alone cannot capture. In this work, we leverage sensing devices such as armbands that measure human muscle activities and microphones that record sound, to capture the details in the human manipulation process, and enable robots to extract task plans and control parameters to perform the same task. To achieve this, we introduce Chain-of-Modality (CoM), a prompting strategy that enables Vision Language Models to reason about multimodal human demonstration data — videos coupled with muscle or audio signals. By progressively integrating information from each modality, CoM refines a task plan and generates detailed control parameters, enabling robots to perform manipulation tasks based on a single multimodal human video prompt. Our experiments show that CoM delivers a threefold improvement in accuracy for extracting task plans and control parameters compared to baselines, with strong generalization to new task setups and objects in real-world robot experiments. Videos and code are available at https://chain-of-modality.github.io

arxiv情報

著者 Chen Wang,Fei Xia,Wenhao Yu,Tingnan Zhang,Ruohan Zhang,C. Karen Liu,Li Fei-Fei,Jie Tan,Jacky Liang
発行日 2025-04-17 21:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.MM, cs.RO | コメントする

Multi-Sensor Fusion-Based Mobile Manipulator Remote Control for Intelligent Smart Home Assistance

要約

このペーパーでは、インテリジェントなスマートホーム支援のためのウェアラブル制御のモバイルマニピュレーターシステムを提案し、MEMS容量性マイク、IMUセンサー、振動モーター、および圧力フィードバックを統合して、人間とロボットの相互作用を強化します。
ウェアラブルデバイスは前腕の筋肉の活動をキャプチャし、モバイル操作のためにリアルタイムの制御信号に変換します。
ウェアラブルデバイスは、CNN-LSTMモデルを使用することにより、ハンドジェスチャー用の6つの異なる移動フォースクラスにわたって88.33 \%\のオフライン分類精度を実現しますが、5人の参加者を含む実世界の実験では、平均システム応答時間が1.2秒で、83.33 \%\の実用的な精度が得られます。
ナビゲーションと把握タスクにおけるヒトロボットの相乗効果では、ロボットは平均軌道偏差が3.6 cmの平均偏差で98 \%\タスクの成功率を達成しました。
最後に、ウェアラブル制御のモバイルマニピュレーターシステムは、93.3 \%\グリッピングの成功率、95.6 \%\の転送成功、およびオブジェクトの把握および転送テスト中に91.1 \%\のフルタスク成功率を達成しました。
これらの3つの実験の結果は、マルチセンサー融合と組み合わせたMEMSベースのウェアラブルセンシングの有効性を検証し、スマートホームシナリオでの支援ロボットを信頼できる直感的に制御します。

要約(オリジナル)

This paper proposes a wearable-controlled mobile manipulator system for intelligent smart home assistance, integrating MEMS capacitive microphones, IMU sensors, vibration motors, and pressure feedback to enhance human-robot interaction. The wearable device captures forearm muscle activity and converts it into real-time control signals for mobile manipulation. The wearable device achieves an offline classification accuracy of 88.33\%\ across six distinct movement-force classes for hand gestures by using a CNN-LSTM model, while real-world experiments involving five participants yield a practical accuracy of 83.33\%\ with an average system response time of 1.2 seconds. In Human-Robot synergy in navigation and grasping tasks, the robot achieved a 98\%\ task success rate with an average trajectory deviation of only 3.6 cm. Finally, the wearable-controlled mobile manipulator system achieved a 93.3\%\ gripping success rate, a transfer success of 95.6\%\, and a full-task success rate of 91.1\%\ during object grasping and transfer tests, in which a total of 9 object-texture combinations were evaluated. These three experiments’ results validate the effectiveness of MEMS-based wearable sensing combined with multi-sensor fusion for reliable and intuitive control of assistive robots in smart home scenarios.

arxiv情報

著者 Xiao Jin,Bo Xiao,Huijiang Wang,Wendong Wang,Zhenhua Yu
発行日 2025-04-17 22:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

Integration of a Graph-Based Path Planner and Mixed-Integer MPC for Robot Navigation in Cluttered Environments

要約

パスプランを更新する機能は、不確実な環境をナビゲートする自律モバイルロボットに必要な機能です。
このペーパーでは、ロボットの環境が部分的に知られている場合の多層計画および制御フレームワークを使用した再計画戦略を提案します。
内側軸グラフベースのプランナーは、グラフ内の各エッジが一意の廊下に対応する既知の障害に基づいたグローバルパスプランを定義します。
混合インテガーモデル予測制御(MPC)メソッドは、ローカル環境の非凸の説明を条件として、グローバルプランから派生した端子制約が実行不可能であるかどうかを検出します。
無効性検出は、内側軸グラフエッジ削除を介して効率的なグローバル再計画をトリガーするために使用されます。
提案された再計画戦略は実験的に実証されています。

要約(オリジナル)

The ability to update a path plan is a required capability for autonomous mobile robots navigating through uncertain environments. This paper proposes a re-planning strategy using a multilayer planning and control framework for cases where the robot’s environment is partially known. A medial axis graph-based planner defines a global path plan based on known obstacles where each edge in the graph corresponds to a unique corridor. A mixed-integer model predictive control (MPC) method detects if a terminal constraint derived from the global plan is infeasible, subject to a non-convex description of the local environment. Infeasibility detection is used to trigger efficient global re-planning via medial axis graph edge deletion. The proposed re-planning strategy is demonstrated experimentally.

arxiv情報

著者 Joshua A. Robbins,Stephen J. Harnett,Andrew F. Thompson,Sean Brennan,Herschel C. Pangborn
発行日 2025-04-17 22:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Demonstrating CavePI: Autonomous Exploration of Underwater Caves by Semantic Guidance

要約

自律的なロボットが水中管理、水文地質学、考古学、および海洋ロボット工学にとって、水中洞窟を安全かつ効率的にナビゲート、探索、およびマッピングできるようにすることが非常に重要です。
この作業では、セマンティックガイド付きの自律的な水中洞窟探査のための視覚サーボフレームワークのシステム設計とアルゴリズム統合を示します。
このフレームワークをCavepiという名前の新しいAUV(自律的な水中車両)に展開するために、ハードウェアとエッジアイの設計上の考慮事項を提示します。
ガイド付きナビゲーションは、計算的に軽いが堅牢な深い視覚認識モジュールによって駆動され、環境の豊富な意味的理解を提供します。
その後、堅牢な制御メカニズムにより、Cavepiはセマンティックガイドを追跡し、複雑な洞窟構造内でナビゲートできます。
自然の水中洞窟および春の水域でのフィールド実験を通じてシステムを評価し、シミュレーション環境でのROS(ロボットオペレーティングシステム)ベースのデジタルツインをさらに検証します。
私たちの結果は、これらの統合された設計の選択が、機能不足、GPS除去、および視界の低い条件下での信頼できるナビゲーションをどのように促進するかを強調しています。

要約(オリジナル)

Enabling autonomous robots to safely and efficiently navigate, explore, and map underwater caves is of significant importance to water resource management, hydrogeology, archaeology, and marine robotics. In this work, we demonstrate the system design and algorithmic integration of a visual servoing framework for semantically guided autonomous underwater cave exploration. We present the hardware and edge-AI design considerations to deploy this framework on a novel AUV (Autonomous Underwater Vehicle) named CavePI. The guided navigation is driven by a computationally light yet robust deep visual perception module, delivering a rich semantic understanding of the environment. Subsequently, a robust control mechanism enables CavePI to track the semantic guides and navigate within complex cave structures. We evaluate the system through field experiments in natural underwater caves and spring-water sites and further validate its ROS (Robot Operating System)-based digital twin in a simulation environment. Our results highlight how these integrated design choices facilitate reliable navigation under feature-deprived, GPS-denied, and low-visibility conditions.

arxiv情報

著者 Alankrit Gupta,Adnan Abdullah,Xianyao Li,Vaishnav Ramesh,Ioannis Rekleitis,Md Jahidul Islam
発行日 2025-04-17 22:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

LangCoop: Collaborative Driving with Language

要約

マルチエージェントコラボレーションは、複数の接続されたエージェント間の情報共有を可能にすることにより、自律運転システムの安全性、信頼性、およびモビリティを高めるための大きな可能性を秘めています。
ただし、既存のマルチエージェント通信アプローチは、帯域幅の需要、エージェントの不均一性、情報の損失など、既存の通信メディアの制限によって妨げられています。
これらの課題に対処するために、自然言語をエージェント間コミュニケーションのためのコンパクトでありながら表現力豊かな媒体として活用する共同自律運転の新しいパラダイムであるLangcoopを紹介します。
Langcoopには、2つの重要な革新があります。混合モデルモジュラーチェーンオブサベート(M $^3 $ cot)の構造化されたゼロショット視覚推論のためのM $^3 $ COT)と、情報を簡潔にパッケージ化するための自然言語情報パッケージ(Langpack)。
Carlaシミュレーションで実施された広範な実験を通じて、Langcoopは、画像ベースの通信と比較して、通信帯域幅の顕著な96%の減少(メッセージあたり<2kb)を達成し、閉ループ評価で競合する運転性能を維持することを実証します。

要約(オリジナル)

Multi-agent collaboration holds great promise for enhancing the safety, reliability, and mobility of autonomous driving systems by enabling information sharing among multiple connected agents. However, existing multi-agent communication approaches are hindered by limitations of existing communication media, including high bandwidth demands, agent heterogeneity, and information loss. To address these challenges, we introduce LangCoop, a new paradigm for collaborative autonomous driving that leverages natural language as a compact yet expressive medium for inter-agent communication. LangCoop features two key innovations: Mixture Model Modular Chain-of-thought (M$^3$CoT) for structured zero-shot vision-language reasoning and Natural Language Information Packaging (LangPack) for efficiently packaging information into concise, language-based messages. Through extensive experiments conducted in the CARLA simulations, we demonstrate that LangCoop achieves a remarkable 96\% reduction in communication bandwidth (< 2KB per message) compared to image-based communication, while maintaining competitive driving performance in the closed-loop evaluation.

arxiv情報

著者 Xiangbo Gao,Yuheng Wu,Rujia Wang,Chenxi Liu,Yang Zhou,Zhengzhong Tu
発行日 2025-04-18 02:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | コメントする

A Model-Based Approach to Imitation Learning through Multi-Step Predictions

要約

模倣学習は、トレーニングエージェントが複雑な意思決定タスクで専門家の行動を再現するための広く使用されているアプローチです。
ただし、既存の方法は、エラー修正の固有の課題とトレーニングと展開の間の分布シフトにより、複合エラーと一般化の制限に苦労していることがよくあります。
このホワイトペーパーでは、モデル予測制御に触発された新しいモデルベースの模倣学習フレームワークを紹介します。これは、マルチステップ状態予測を通じて予測モデリングを統合することにより、これらの制限に対処します。
私たちの方法は、数値ベンチマークをクローニングする従来の動作を上回り、利用可能なデータと実行中の分布シフトおよび測定ノイズに対する優れた堅牢性を示しています。
さらに、メソッドのサンプルの複雑さとエラー境界に関する理論的保証を提供し、収束特性に関する洞察を提供します。

要約(オリジナル)

Imitation learning is a widely used approach for training agents to replicate expert behavior in complex decision-making tasks. However, existing methods often struggle with compounding errors and limited generalization, due to the inherent challenge of error correction and the distribution shift between training and deployment. In this paper, we present a novel model-based imitation learning framework inspired by model predictive control, which addresses these limitations by integrating predictive modeling through multi-step state predictions. Our method outperforms traditional behavior cloning numerical benchmarks, demonstrating superior robustness to distribution shift and measurement noise both in available data and during execution. Furthermore, we provide theoretical guarantees on the sample complexity and error bounds of our method, offering insights into its convergence properties.

arxiv情報

著者 Haldun Balim,Yang Hu,Yuyang Zhang,Na Li
発行日 2025-04-18 02:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | コメントする

Testing the Fault-Tolerance of Multi-Sensor Fusion Perception in Autonomous Driving Systems

要約

Google WaymoやBaidu Apolloなどの高レベルの自律駆動システム(ADS)は、通常、周囲を知覚するためのマルチセンサー融合(MSF)ベースのアプローチに依存しています。
この戦略は、カメラとライダーのそれぞれの強度を組み合わせることにより、知覚の堅牢性を高め、自動運転車(AVS)の安全性クリティカルな運転決定に直接影響します。
ただし、実際の自律運転シナリオでは、カメラとLIDARはさまざまな障害の影響を受けます。これは、おそらくADSの意思決定と行動に大きな影響を与える可能性があります。
既存のMSFテストアプローチは、MSFベースの知覚がMSFベースの知覚によって正確に検出できないコーナーケースのみを発見しましたが、センサー障害がADSのシステムレベルの動作にどのように影響するかについての研究がありませんでした。
このギャップに対処するために、センサー障害のMSF知覚ベースの広告のフォールトトレランスの最初の調査を実施します。
この論文では、AVSでカメラとLIDARの障害モデルを体系的かつ包括的に構築し、それらをMSF認識ベースの広告に注入して、テストシナリオでの動作をテストします。
センサー障害モデルのパラメータースペースを効果的かつ効率的に探索するために、フィードバックガイド付きディファレンシャルファッツァーを設計して、注入されたセンサー障害によって引き起こされるMSF認識ベースの広告の安全違反を発見します。
私たちは、代表的および実践的な産業広告であるBaidu ApolloのFadeを評価します。
評価の結果は、フェードの有効性と効率性を示しており、実験結果からいくつかの有用な発見を結論付けています。
物理世界の調査結果を検証するために、実際のBaidu Apollo 6.0 EDU自律車両を使用して物理実験を実施し、結果は調査結果の実際的な重要性を示しています。

要約(オリジナル)

High-level Autonomous Driving Systems (ADSs), such as Google Waymo and Baidu Apollo, typically rely on multi-sensor fusion (MSF) based approaches to perceive their surroundings. This strategy increases perception robustness by combining the respective strengths of the camera and LiDAR and directly affects the safety-critical driving decisions of autonomous vehicles (AVs). However, in real-world autonomous driving scenarios, cameras and LiDAR are subject to various faults, which can probably significantly impact the decision-making and behaviors of ADSs. Existing MSF testing approaches only discovered corner cases that the MSF-based perception cannot accurately detected by MSF-based perception, while lacking research on how sensor faults affect the system-level behaviors of ADSs. To address this gap, we conduct the first exploration of the fault tolerance of MSF perception-based ADS for sensor faults. In this paper, we systematically and comprehensively build fault models for cameras and LiDAR in AVs and inject them into the MSF perception-based ADS to test its behaviors in test scenarios. To effectively and efficiently explore the parameter spaces of sensor fault models, we design a feedback-guided differential fuzzer to discover the safety violations of MSF perception-based ADS caused by the injected sensor faults. We evaluate FADE on the representative and practical industrial ADS, Baidu Apollo. Our evaluation results demonstrate the effectiveness and efficiency of FADE, and we conclude some useful findings from the experimental results. To validate the findings in the physical world, we use a real Baidu Apollo 6.0 EDU autonomous vehicle to conduct the physical experiments, and the results show the practical significance of our findings.

arxiv情報

著者 Haoxiang Tian,Wenqiang Ding,Xingshuo Han,Guoquan Wu,An Guo,Junqi Zhang. Wei Chen,Jun Wei,Tianwei Zhang
発行日 2025-04-18 02:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE | コメントする

An Addendum to NeBula: Towards Extending TEAM CoSTAR’s Solution to Larger Scale Environments

要約

このホワイトペーパーでは、DARPA地下挑戦に参加しているTeam CoSTar(共同地下の自律ロボット)が開発した元の星雲自律ソリューションの付録を提示します。
具体的には、このペーパーでは、探査環境の範囲とスケールの増加に焦点を当てた星雲のハードウェア、ソフトウェア、およびアルゴリズムコンポーネントの拡張を示します。
アルゴリズムの観点から、以下の拡張を元のNebulaフレームワークの拡張について説明します。(i)大規模な幾何学的およびセマンティック環境マッピング。
(ii)適応型ポジショニングシステム。
(iii)確率的通過性分析と現地計画。
(iv)大規模なPOMDPベースのグローバルモーションプランニングと探索行動。
(v)大規模なネットワーキングと分散型推論。
(vi)コミュニケーションアウェアミッション計画。
(vii)マルチモーダルの地上空中探索ソリューション。
Limestone Mine ExplorationシナリオやDARPA Subterranean Challengeでの展開など、さまざまな大規模な地下環境で提示されたシステムとソリューションのアプリケーションと展開を実証します。

要約(オリジナル)

This paper presents an appendix to the original NeBula autonomy solution developed by the TEAM CoSTAR (Collaborative SubTerranean Autonomous Robots), participating in the DARPA Subterranean Challenge. Specifically, this paper presents extensions to NeBula’s hardware, software, and algorithmic components that focus on increasing the range and scale of the exploration environment. From the algorithmic perspective, we discuss the following extensions to the original NeBula framework: (i) large-scale geometric and semantic environment mapping; (ii) an adaptive positioning system; (iii) probabilistic traversability analysis and local planning; (iv) large-scale POMDP-based global motion planning and exploration behavior; (v) large-scale networking and decentralized reasoning; (vi) communication-aware mission planning; and (vii) multi-modal ground-aerial exploration solutions. We demonstrate the application and deployment of the presented systems and solutions in various large-scale underground environments, including limestone mine exploration scenarios as well as deployment in the DARPA Subterranean challenge.

arxiv情報

著者 Ali Agha,Kyohei Otsu,Benjamin Morrell,David D. Fan,Sung-Kyun Kim,Muhammad Fadhil Ginting,Xianmei Lei,Jeffrey Edlund,Seyed Fakoorian,Amanda Bouman,Fernando Chavez,Taeyeon Kim,Gustavo J. Correa,Maira Saboia,Angel Santamaria-Navarro,Brett Lopez,Boseong Kim,Chanyoung Jung,Mamoru Sobue,Oriana Claudia Peltzer,Joshua Ott,Robert Trybula,Thomas Touma,Marcel Kaufmann,Tiago Stegun Vaquero,Torkom Pailevanian,Matteo Palieri,Yun Chang,Andrzej Reinke,Matthew Anderson,Frederik E. T. Schöller,Patrick Spieler,Lillian M. Clark,Avak Archanian,Kenny Chen,Hovhannes Melikyan,Anushri Dixit,Harrison Delecki,Daniel Pastor,Barry Ridge,Nicolas Marchal,Jose Uribe,Sharmita Dey,Kamak Ebadi,Kyle Coble,Alexander Nikitas Dimopoulos,Vivek Thangavelu,Vivek S. Varadharajan,Nicholas Palomo,Antoni Rosinol,Arghya Chatterjee,Christoforos Kanellakis,Bjorn Lindqvist,Micah Corah,Kyle Strickland,Ryan Stonebraker,Michael Milano,Christopher E. Denniston,Sami Sahnoune,Thomas Claudet,Seungwook Lee,Gautam Salhotra,Edward Terry,Rithvik Musuku,Robin Schmid,Tony Tran,Ara Kourchians,Justin Schachter,Hector Azpurua,Levi Resende,Arash Kalantari,Jeremy Nash,Josh Lee,Christopher Patterson,Jennifer G. Blank,Kartik Patath,Yuki Kubo,Ryan Alimo,Yasin Almalioglu,Aaron Curtis,Jacqueline Sly,Tesla Wells,Nhut T. Ho,Mykel Kochenderfer,Giovanni Beltrame,George Nikolakopoulos,David Shim,Luca Carlone,Joel Burdick
発行日 2025-04-18 04:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Stochastic Trajectory Optimization for Robotic Skill Acquisition From a Suboptimal Demonstration

要約

デモンストレーション(LFD)から学ぶことは、ロボットが新しいスキルを獲得するための重要な方法として浮上しています。
ただし、人間の好みを反映する形状特性を備えた最適ではないが、スローモーションなどの下位の動的属性を備えた軌道軌跡デモンストレーションが与えられた場合、ロボットは動作を模倣するだけでなく、動的パフォーマンスを最適化する必要があります。
この作業では、最適化ベースの方法を活用して、形状が実証された軌道の形状と似ている優れたパフォーマンスの軌道を検索します。
具体的には、動的タイムワーピング(DTW)を使用して、2つの軌跡の違いを定量化し、衝突コストなどの追加のパフォーマンスメトリックと組み合わせてコスト関数を構築します。
さらに、MSTOMPと呼ばれるモーションプランニング(STOMP)の確率的軌道最適化のマルチポリティバージョンを開発します。これは、パラメーターの変更により安定して堅牢です。
実証された軌道でジッターに対処するために、周波数領域のゲイン制御方法をさらに利用して、デモンストレーションを除去し、周波数ドメインの軌跡の違いを測定するスペクトル(MSES)の平均平方根誤差(MSES)と呼ばれる計算的に効率的なメトリックを提案します。
また、時間領域と周波数領域のメソッド間の接続を理論的に強調します。
最後に、シミュレーション実験と実際の実験の両方で方法を検証し、既存の方法と比較して最適化のパフォーマンスと安定性の改善を紹介します。

要約(オリジナル)

Learning from Demonstration (LfD) has emerged as a crucial method for robots to acquire new skills. However, when given suboptimal task trajectory demonstrations with shape characteristics reflecting human preferences but subpar dynamic attributes such as slow motion, robots not only need to mimic the behaviors but also optimize the dynamic performance. In this work, we leverage optimization-based methods to search for a superior-performing trajectory whose shape is similar to that of the demonstrated trajectory. Specifically, we use Dynamic Time Warping (DTW) to quantify the difference between two trajectories and combine it with additional performance metrics, such as collision cost, to construct the cost function. Moreover, we develop a multi-policy version of the Stochastic Trajectory Optimization for Motion Planning (STOMP), called MSTOMP, which is more stable and robust to parameter changes. To deal with the jitter in the demonstrated trajectory, we further utilize the gain-controlling method in the frequency domain to denoise the demonstration and propose a computationally more efficient metric, called Mean Square Error in the Spectrum (MSES), that measures the trajectories’ differences in the frequency domain. We also theoretically highlight the connections between the time domain and the frequency domain methods. Finally, we verify our method in both simulation experiments and real-world experiments, showcasing its improved optimization performance and stability compared to existing methods.

arxiv情報

著者 Chenlin Ming,Zitong Wang,Boxuan Zhang,Zhanxiang Cao,Xiaoming Duan,Jianping He
発行日 2025-04-18 05:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする