Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station

要約

このフィールドレポートでは、頑丈な環境でGPRローカリゼーション技術を検証する目的で、MARSアナログ環境で地面の浸透レーダー(GPR)データを収集するために、フィールド遠征から学んだ教訓について詳しく説明します。
惑星ローバーには、地質学的地下特性評価用のGPRが既に装備されています。
GPRは、地球上の車両のローカライズに成功裏に使用されていますが、惑星の群れでのローカリゼーションのための別のモダリティとしてまだ調査されていません。
ローカリゼーションのためにGPRを活用すると、効率的で堅牢なローバーポーズ推定に役立ちます。
火星アナログ環境でGPRのローカライズを実証するために、Mars Desert Research Station(MDRS)で2週間に50以上の個別の調査軌跡を収集しました。
このレポートでは、方法論、学んだ教訓、将来の仕事の機会について説明します。

要約(オリジナル)

In this field report, we detail the lessons learned from our field expedition to collect Ground Penetrating Radar (GPR) data in a Mars analog environment for the purpose of validating GPR localization techniques in rugged environments. Planetary rovers are already equipped with GPR for geologic subsurface characterization. GPR has been successfully used to localize vehicles on Earth, but it has not yet been explored as another modality for localization on a planetary rover. Leveraging GPR for localization can aid in efficient and robust rover pose estimation. In order to demonstrate localizing GPR in a Mars analog environment, we collected over 50 individual survey trajectories during a two-week period at the Mars Desert Research Station (MDRS). In this report, we discuss our methodology, lessons learned, and opportunities for future work.

arxiv情報

著者 Anja Sheppard,Katherine A. Skinner
発行日 2025-04-21 21:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station はコメントを受け付けていません

LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning

要約

最小限の人間の努力で効率的でカスタマイズ可能な表現力豊かな行動の獲得を可能にするロボット学習の新しいフレームワークである、大規模な言語モデル支援優先予測(LAPP)を紹介します。
報酬エンジニアリング、人間のデモンストレーション、モーションキャプチャ、または高価なペアワイズ優先ラベルに大きく依存する以前のアプローチとは異なり、LAPPは大規模な言語モデル(LLM)をレバレッジして、強化学習中に収集された生の状態アクション軌跡から自動的に優先ラベルを生成します(RL)。
これらのラベルは、オンライン選好予測子をトレーニングするために使用されます。これにより、人間が提供する高レベルの行動仕様を満たすためのポリシー最適化プロセスを導きます。
私たちの主な技術貢献は、軌道レベルの優先予測を介してLLMSをRLフィードバックループに統合し、ロボットが歩行パターンやリズミカルなタイミングの微妙な制御を含む複雑なスキルを獲得できるようにすることです。
多様な一連の四足運動と器用な操作タスクのLAPPを評価し、効率的な学習、最終的なパフォーマンスの向上、より速い適応、および高レベルの動作の正確な制御を達成することを示します。
特に、LAPPにより、ロボットは、標準のLLM生成または手作りの報酬の手の届かないままである4倍のバックフリップなど、非常にダイナミックで表現力のあるタスクを習得できます。
私たちの結果は、スケーラブルな選好駆動型のロボット学習の有望な方向としてLappを強調しています。

要約(オリジナル)

We introduce Large Language Model-Assisted Preference Prediction (LAPP), a novel framework for robot learning that enables efficient, customizable, and expressive behavior acquisition with minimum human effort. Unlike prior approaches that rely heavily on reward engineering, human demonstrations, motion capture, or expensive pairwise preference labels, LAPP leverages large language models (LLMs) to automatically generate preference labels from raw state-action trajectories collected during reinforcement learning (RL). These labels are used to train an online preference predictor, which in turn guides the policy optimization process toward satisfying high-level behavioral specifications provided by humans. Our key technical contribution is the integration of LLMs into the RL feedback loop through trajectory-level preference prediction, enabling robots to acquire complex skills including subtle control over gait patterns and rhythmic timing. We evaluate LAPP on a diverse set of quadruped locomotion and dexterous manipulation tasks and show that it achieves efficient learning, higher final performance, faster adaptation, and precise control of high-level behaviors. Notably, LAPP enables robots to master highly dynamic and expressive tasks such as quadruped backflips, which remain out of reach for standard LLM-generated or handcrafted rewards. Our results highlight LAPP as a promising direction for scalable preference-driven robot learning.

arxiv情報

著者 Pingcheng Jian,Xiao Wei,Yanbaihui Liu,Samuel A. Moore,Michael M. Zavlanos,Boyuan Chen
発行日 2025-04-21 22:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning はコメントを受け付けていません

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

要約

動的な都市環境をナビゲートすることは、具体化されたエージェントに大きな課題をもたらし、高度な空間的推論と常識的な規範への順守が必要です。
進捗状況にもかかわらず、既存の視覚的ナビゲーション方法は、マップフリーまたはオフストリートの設定で苦労しており、ラストマイル配信ロボットのような自律エージェントの展開を制限しています。
これらの障害を克服するために、私たちは、Webから調達された数千時間の野生の都市のウォーキングと運転ビデオでの数千時間の都市でのトレーニングエージェントによって、人間のような都市ナビゲーションのためのスケーラブルなデータ駆動型アプローチを提案します。
これらのビデオからアクション監督を抽出するシンプルでスケーラブルなデータ処理パイプラインを導入し、コストのかかる注釈なしで大規模な模倣学習を可能にします。
私たちのモデルは、多様な課題と重要なシナリオを処理するために、洗練されたナビゲーションポリシーを学びます。
実験結果は、大規模で多様なデータセットでのトレーニングがナビゲーションのパフォーマンスを大幅に向上させ、現在の方法を上回ることを示しています。
この作業は、豊富なオンラインビデオデータを使用して、動的な都市環境で具体化されたエージェントの堅牢なナビゲーションポリシーを開発する可能性を示しています。
プロジェクトホームページはhttps://ai4ce.github.io/citywalker/にあります。

要約(オリジナル)

Navigating dynamic urban environments presents significant challenges for embodied agents, requiring advanced spatial reasoning and adherence to common-sense norms. Despite progress, existing visual navigation methods struggle in map-free or off-street settings, limiting the deployment of autonomous agents like last-mile delivery robots. To overcome these obstacles, we propose a scalable, data-driven approach for human-like urban navigation by training agents on thousands of hours of in-the-wild city walking and driving videos sourced from the web. We introduce a simple and scalable data processing pipeline that extracts action supervision from these videos, enabling large-scale imitation learning without costly annotations. Our model learns sophisticated navigation policies to handle diverse challenges and critical scenarios. Experimental results show that training on large-scale, diverse datasets significantly enhances navigation performance, surpassing current methods. This work shows the potential of using abundant online video data to develop robust navigation policies for embodied agents in dynamic urban settings. Project homepage is at https://ai4ce.github.io/CityWalker/.

arxiv情報

著者 Xinhao Liu,Jintong Li,Yicheng Jiang,Niranjan Sujay,Zhicheng Yang,Juexiao Zhang,John Abanes,Jing Zhang,Chen Feng
発行日 2025-04-22 01:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos はコメントを受け付けていません

AgilePilot: DRL-Based Drone Agent for Real-Time Motion Planning in Dynamic Environments by Leveraging Object Detection

要約

動的環境での自律的なドローンナビゲーションは、特に急速に変化する目標位置を持つ急速に変化するオブジェクトを含む予測不可能なシナリオを扱う場合、重要な課題のままです。
従来のプランナーと古典的な最適化方法は、この動的な問題に対処するために広く使用されていますが、多くの場合、リアルタイムで予測不可能な変更に直面し、最終的に適応性とリアルタイムの意思決定の点で最適なパフォーマンスにつながります。
この作業では、飛行中のオブジェクト検出のためのリアルタイムコンピュータービジョン(CV)と相まって、動的条件でトレーニングされたディープ補強学習(DRL)に基づいた、新しいモーションプランナーであるAgilepilotを提案します。
トレーニング間の展開フレームワークは、環境の状態に応じて安全性と敏ility性の両方を促進する洗練された報酬構造を活用して、Sim2realギャップを橋渡しします。
このシステムは、変化する環境に迅速に適応でき、現実世界のシナリオでは3.0 m/sの最大速度を達成できます。
それに比べて、私たちのアプローチは、75の実施された実験で90%の成功率を示しながら、速度予測を使用して動的ターゲットのパフォーマンスと追跡精度の両方で、人工電位フィールド(APF)ベースのモーションプランナーなどの古典的なアルゴリズムを3回上回ります。
この作業は、リアルタイムの動的ナビゲーションの課題への取り組みにおけるDRLの有効性を強調し、インテリジェントな安全性と敏ility性を提供します。

要約(オリジナル)

Autonomous drone navigation in dynamic environments remains a critical challenge, especially when dealing with unpredictable scenarios including fast-moving objects with rapidly changing goal positions. While traditional planners and classical optimisation methods have been extensively used to address this dynamic problem, they often face real-time, unpredictable changes that ultimately leads to sub-optimal performance in terms of adaptiveness and real-time decision making. In this work, we propose a novel motion planner, AgilePilot, based on Deep Reinforcement Learning (DRL) that is trained in dynamic conditions, coupled with real-time Computer Vision (CV) for object detections during flight. The training-to-deployment framework bridges the Sim2Real gap, leveraging sophisticated reward structures that promotes both safety and agility depending upon environment conditions. The system can rapidly adapt to changing environments, while achieving a maximum speed of 3.0 m/s in real-world scenarios. In comparison, our approach outperforms classical algorithms such as Artificial Potential Field (APF) based motion planner by 3 times, both in performance and tracking accuracy of dynamic targets by using velocity predictions while exhibiting 90% success rate in 75 conducted experiments. This work highlights the effectiveness of DRL in tackling real-time dynamic navigation challenges, offering intelligent safety and agility.

arxiv情報

著者 Roohan Ahmed Khan,Valerii Serpiva,Demetros Aschalew,Aleksey Fedoseev,Dzmitry Tsetserukou
発行日 2025-04-22 01:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AgilePilot: DRL-Based Drone Agent for Real-Time Motion Planning in Dynamic Environments by Leveraging Object Detection はコメントを受け付けていません

Few-Shot Vision-Language Action-Incremental Policy Learning

要約

最近、トランスベースのロボット操作方法は、多数のロボットデモンストレーションを活用することにより、マルチビューの空間表現と言語指示を利用してロボットモーションの軌跡を学習します。
ただし、ロボットデータのコレクションは非常に困難であり、既存の方法には、ほんのわずかなデモンストレーションで新しいタスクで継続的な学習を行う機能がありません。
このホワイトペーパーでは、これらの課題を少数のアクションインクリメンタル学習(FSAIL)タスクとして定式化し、それに応じて、これらの問題に対処するためにタスクプロムプトグラフの進化ポリシー(トピック)を設計します。
具体的には、ロボット模倣学習におけるデータ希少性の問題に対処するために、トピックは少数のショットデモンストレーション内でマルチモーダル情報の深い相互作用を通じてタスク固有のプロンプト(TSP)を学び、それによりタスク固有の識別情報を効果的に抽出します。
一方、新しいタスクで継続的に学習する能力を高め、壊滅的な忘却の問題を軽減するために、トピックは継続的な進化戦略(CES)を採用しています。
CESは、タスク間の本質的な関係を活用してタスク関係グラフを構築します。これにより、以前のタスクから学んだスキルを再利用することにより、新しいタスクの適応が効果的に促進されます。
トピックの先駆者ロボット操作タスクでの少数の継続的な学習、および広範な実験結果は、トピックが成功率が26ドルを超える最先端のベースラインを上回り、既存の変圧器ベースのポリシーの継続的な学習能力を大幅に強化することを示しています。

要約(オリジナル)

Recently, Transformer-based robotic manipulation methods utilize multi-view spatial representations and language instructions to learn robot motion trajectories by leveraging numerous robot demonstrations. However, the collection of robot data is extremely challenging, and existing methods lack the capability for continuous learning on new tasks with only a few demonstrations. In this paper, we formulate these challenges as the Few-Shot Action-Incremental Learning (FSAIL) task, and accordingly design a Task-prOmpt graPh evolutIon poliCy (TOPIC) to address these issues. Specifically, to address the data scarcity issue in robotic imitation learning, TOPIC learns Task-Specific Prompts (TSP) through the deep interaction of multi-modal information within few-shot demonstrations, thereby effectively extracting the task-specific discriminative information. On the other hand, to enhance the capability for continual learning on new tasks and mitigate the issue of catastrophic forgetting, TOPIC adopts a Continuous Evolution Strategy (CES). CES leverages the intrinsic relationships between tasks to construct a task relation graph, which effectively facilitates the adaptation of new tasks by reusing skills learned from previous tasks. TOPIC pioneers few-shot continual learning in the robotic manipulation task, and extensive experimental results demonstrate that TOPIC outperforms state-of-the-art baselines by over 26$\%$ in success rate, significantly enhancing the continual learning capabilities of existing Transformer-based policies.

arxiv情報

著者 Mingchen Song,Xiang Deng,Guoqiang Zhong,Qi Lv,Jia Wan,Yinchuan Li,Jianye Hao,Weili Guan
発行日 2025-04-22 01:30:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Few-Shot Vision-Language Action-Incremental Policy Learning はコメントを受け付けていません

VibeCheck: Using Active Acoustic Tactile Sensing for Contact-Rich Manipulation

要約

オブジェクトの音響応答は、そのグローバルな状態、たとえばその材料特性や、世界と一緒に行っている外因性接点について多くを明らかにすることができます。
この作業では、2つの圧電指を備えたアクティブな音響センシンググリッパーを構築します。1つは信号を生成するため、もう1つはそれらを受信するためです。
オブジェクトを介して一方の指から他の指に音響振動を送信することにより、オブジェクトの音響特性と接触状態についての洞察を得ます。
このシステムを使用して、オブジェクトを分類し、把握位置を推定し、内部構造のポーズを推定し、オブジェクトが環境で作っている外因性接点の種類を分類します。
連絡先タイプ分類モデルを使用して、標準の長老操作問題:PEG挿入に取り組みます。
センサーのパフォーマンスに基づいた単純なシミュレーション遷移モデルを使用して、分類器からの不完全な予測に堅牢な模倣学習ポリシーを訓練します。
最終的に、唯一のフィードバックとしてアクティブな音響センシングを備えたUR5ロボットのポリシーを実証します。

要約(オリジナル)

The acoustic response of an object can reveal a lot about its global state, for example its material properties or the extrinsic contacts it is making with the world. In this work, we build an active acoustic sensing gripper equipped with two piezoelectric fingers: one for generating signals, the other for receiving them. By sending an acoustic vibration from one finger to the other through an object, we gain insight into an object’s acoustic properties and contact state. We use this system to classify objects, estimate grasping position, estimate poses of internal structures, and classify the types of extrinsic contacts an object is making with the environment. Using our contact type classification model, we tackle a standard long-horizon manipulation problem: peg insertion. We use a simple simulated transition model based on the performance of our sensor to train an imitation learning policy that is robust to imperfect predictions from the classifier. We finally demonstrate the policy on a UR5 robot with active acoustic sensing as the only feedback.

arxiv情報

著者 Kaidi Zhang,Do-Gon Kim,Eric T. Chang,Hua-Hsuan Liang,Zhanpeng He,Kathryn Lampo,Philippe Wu,Ioannis Kymissis,Matei Ciocarlie
発行日 2025-04-22 02:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VibeCheck: Using Active Acoustic Tactile Sensing for Contact-Rich Manipulation はコメントを受け付けていません

GoalGrasp: Grasping Goals in Partially Occluded Scenarios without Grasp Training

要約

ユーザー指定のオブジェクトを把握することは、ロボットアシスタントにとって重要です。
ただし、現在の6-DOFグラス検出方法のほとんどはオブジェクトに依存しているため、シーンから特定のターゲットを把握することが困難です。
それを実現するために、goalgraspを提示します。これは、シンプルでありながら効果的な6-dofロボットグラスポーズ検出方法であり、ポーズアノテーションとトレーニングを把握することに依存していません。
3Dの境界ボックスとシンプルな人間の把握前の握りを組み合わせることにより、私たちの方法は、ロボットグラップポーズ検出のための新しいパラダイムを紹介します。
GoalGraspの斬新さは、ユーザー指定のオブジェクトの迅速な把握と、閉塞問題の部分的な緩和です。
実験的評価には、7つのクラスに分類された18の共通オブジェクトが含まれます。
私たちの方法は、1000シーンの密な把握ポーズを生成します。
新しい安定性メトリックを使用して、メソッドの把握ポーズを既存のアプローチと比較し、ポーズの安定性が大幅に高いことを示しています。
ユーザー指定のロボット把握テストでは、この方法は94%の成功率を達成し、92%が部分閉塞中に達成されます。

要約(オリジナル)

Grasping user-specified objects is crucial for robotic assistants; however, most current 6-DoF grasp detection methods are object-agnostic, making it challenging to grasp specific targets from a scene. To achieve that, we present GoalGrasp, a simple yet effective 6-DoF robot grasp pose detection method that does not rely on grasp pose annotations and grasp training. By combining 3D bounding boxes and simple human grasp priors, our method introduces a novel paradigm for robot grasp pose detection. GoalGrasp’s novelty is its swift grasping of user-specified objects and partial mitigation of occlusion issues. The experimental evaluation involves 18 common objects categorized into 7 classes. Our method generates dense grasp poses for 1000 scenes. We compare our method’s grasp poses to existing approaches using a novel stability metric, demonstrating significantly higher grasp pose stability. In user-specified robot grasping tests, our method achieves a 94% success rate, and 92% under partial occlusion.

arxiv情報

著者 Shun Gui,Kai Gui,Yan Luximon
発行日 2025-04-22 02:25:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GoalGrasp: Grasping Goals in Partially Occluded Scenarios without Grasp Training はコメントを受け付けていません

RiskNet: Interaction-Aware Risk Forecasting for Autonomous Driving in Long-Tail Scenarios

要約

特に高い不確実性と複雑なマルチエージェント相互作用の下で、ロングテールシナリオでの自動運転車(AVS)の安全性を確保することは依然として重要な課題です。
これに対処するために、包括的なリスク評価のために、決定論的リスクモデリングと確率的行動予測を統合する、相互作用を認識するリスク予測フレームワークであるRiskNetを提案します。
そのコアでは、RiskNetは、相互作用フィールドと力を介して、エゴ車両、周囲のエージェント、およびインフラストラクチャ間の相互作用をキャプチャするフィールド理論モデルを採用しています。
このモデルは、多様なシナリオ(高速道路、交差点、およびラウンドアバウト)にわたる多次元リスク評価をサポートし、高リスクと長期の設定で堅牢性を示します。
行動の不確実性をキャプチャするために、マルチモーダルの将来の動き分布を学習するグラフニューラルネットワーク(GNN)ベースの軌道予測モジュールを組み込みます。
決定論的なリスクフィールドと相まって、時間の間に動的で確率的リスク推論を可能にし、不確実性の下で積極的な安全性評価を可能にします。
Laneの変化、ターン、および複雑な合併に及ぶHighD、Ind、およびラウンドのデータセットの評価は、精度、TTC、THW、RSS、NCフィールドなど)の精度、応答性、方向感受性の観点から、メソッドが従来のアプローチ(TTC、THW、RSS、NCフィールド)を大幅に上回ることを示しています。
このフレームワークは、リアルタイムのシナリオ適応リスク予測をサポートし、不確実な運転環境全体で強力な一般化を実証します。
長期尾のシナリオで、安全性が重要な意思決定のための統一された基盤を提供します。

要約(オリジナル)

Ensuring the safety of autonomous vehicles (AVs) in long-tail scenarios remains a critical challenge, particularly under high uncertainty and complex multi-agent interactions. To address this, we propose RiskNet, an interaction-aware risk forecasting framework, which integrates deterministic risk modeling with probabilistic behavior prediction for comprehensive risk assessment. At its core, RiskNet employs a field-theoretic model that captures interactions among ego vehicle, surrounding agents, and infrastructure via interaction fields and force. This model supports multidimensional risk evaluation across diverse scenarios (highways, intersections, and roundabouts), and shows robustness under high-risk and long-tail settings. To capture the behavioral uncertainty, we incorporate a graph neural network (GNN)-based trajectory prediction module, which learns multi-modal future motion distributions. Coupled with the deterministic risk field, it enables dynamic, probabilistic risk inference across time, enabling proactive safety assessment under uncertainty. Evaluations on the highD, inD, and rounD datasets, spanning lane changes, turns, and complex merges, demonstrate that our method significantly outperforms traditional approaches (e.g., TTC, THW, RSS, NC Field) in terms of accuracy, responsiveness, and directional sensitivity, while maintaining strong generalization across scenarios. This framework supports real-time, scenario-adaptive risk forecasting and demonstrates strong generalization across uncertain driving environments. It offers a unified foundation for safety-critical decision-making in long-tail scenarios.

arxiv情報

著者 Qichao Liu,Heye Huang,Shiyue Zhao,Lei Shi,Soyoung Ahn,Xiaopeng Li
発行日 2025-04-22 02:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | RiskNet: Interaction-Aware Risk Forecasting for Autonomous Driving in Long-Tail Scenarios はコメントを受け付けていません

Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications

要約

この論文では、線形時間論理(LTL)を使用して指定された不明な確率的ダイナミクスと制御目標を持つエージェントの制御ポリシーを設計する問題に対処します。
最近のディープ補強学習(DRL)アルゴリズムは、LTL式の満足度確率を最大化するポリシーを計算することを目的としていますが、多くの場合、学習パフォーマンスが遅いことに苦しんでいます。
これに対処するために、学習速度を大幅に改善する新しい深いQラーニングアルゴリズムを紹介します。
強化されたサンプル効率は、ミッションの成功に貢献する可能性のある方向への探査を優先するミッション主導の探索戦略に由来しています。
これらの方向を特定することは、LTLタスクのオートマトン表現と、エージェントと環境の相互作用を部分的にモデル化する学習したニューラルネットワークに依存しています。
目に見えない環境でのロボットナビゲーションタスクでのアルゴリズムの効率を実証する比較実験を提供します。

要約(オリジナル)

This paper addresses the problem of designing control policies for agents with unknown stochastic dynamics and control objectives specified using Linear Temporal Logic (LTL). Recent Deep Reinforcement Learning (DRL) algorithms have aimed to compute policies that maximize the satisfaction probability of LTL formulas, but they often suffer from slow learning performance. To address this, we introduce a novel Deep Q-learning algorithm that significantly improves learning speed. The enhanced sample efficiency stems from a mission-driven exploration strategy that prioritizes exploration towards directions likely to contribute to mission success. Identifying these directions relies on an automaton representation of the LTL task as well as a learned neural network that partially models the agent-environment interaction. We provide comparative experiments demonstrating the efficiency of our algorithm on robot navigation tasks in unseen environments.

arxiv情報

著者 Jun Wang,Hosein Hasanbeig,Kaiyuan Tan,Zihe Sun,Yiannis Kantaros
発行日 2025-04-22 02:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications はコメントを受け付けていません

SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation

要約

動的な非構造化環境での実際のロボット操作には、進化するオブジェクト、シーン、タスクに生涯にわたる適応性が必要です。
従来の模倣学習は、生涯にわたる適応に適していない静的トレーニングパラダイムに依存しています。
継続的な模倣Learnin(CIL)は、学習知識を保存しながら漸進的なタスク適応を可能にしますが、現在のCILメソッドは主にロボット操作の本質的なスキル特性を見落としているか、手動で定義された剛性スキルに依存し、最適ではないクロスタスク知識移転につながります。
これらの問題に対処するために、ロボット操作のための新しいエンドツーエンドの階層CILポリシーアーキテクチャであるスキルプロンプトベースの階層模倣学習(SPECI)を提案します。
Speciフレームワークは、異種の感覚情報エンコーディングのマルチモーダル知覚と融合モジュール、動的なスキル抽出と選択のための高レベルのスキル推論モジュール、および正確なアクション生成のための低レベルのアクション実行モジュールで構成されています。
スキルレベルとタスクレベルの両方で効率的な知識転送を可能にするために、Speciは拡張可能なスキルコードブ​​ックと注意駆動型スキル選択メカニズムを介して継続的な暗黙的なスキル獲得と再利用を実行します。
さらに、タスク固有およびタスク共有パラメーターを備えた最後の2つのモジュールを増強するモード近似を導入し、それによりタスクレベルの知識転送を強化します。
多様な操作タスクスイートに関する広範な実験は、Speciがすべての評価されたメトリックで一貫して最先端のCILメソッドを上回り、例外的な双方向の知識移転と優れた全体的なパフォーマンスを明らかにすることを示しています。

要約(オリジナル)

Real-world robot manipulation in dynamic unstructured environments requires lifelong adaptability to evolving objects, scenes and tasks. Traditional imitation learning relies on static training paradigms, which are ill-suited for lifelong adaptation. Although Continual Imitation Learnin (CIL) enables incremental task adaptation while preserving learned knowledge, current CIL methods primarily overlook the intrinsic skill characteristics of robot manipulation or depend on manually defined and rigid skills, leading to suboptimal cross-task knowledge transfer. To address these issues, we propose Skill Prompts-based HiErarchical Continual Imitation Learning (SPECI), a novel end-to-end hierarchical CIL policy architecture for robot manipulation. The SPECI framework consists of a multimodal perception and fusion module for heterogeneous sensory information encoding, a high-level skill inference module for dynamic skill extraction and selection, and a low-level action execution module for precise action generation. To enable efficient knowledge transfer on both skill and task levels, SPECI performs continual implicit skill acquisition and reuse via an expandable skill codebook and an attention-driven skill selection mechanism. Furthermore, we introduce mode approximation to augment the last two modules with task-specific and task-sharing parameters, thereby enhancing task-level knowledge transfer. Extensive experiments on diverse manipulation task suites demonstrate that SPECI consistently outperforms state-of-the-art CIL methods across all evaluated metrics, revealing exceptional bidirectional knowledge transfer and superior overall performance.

arxiv情報

著者 Jingkai Xu,Xiangli Nie
発行日 2025-04-22 03:30:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation はコメントを受け付けていません