Bipedal Robust Walking on Uneven Footholds: Piecewise Slope LIPM with Discrete Model Predictive Control

要約

本研究では、凹凸のある地形条件下における二足歩行階層制御フレームワークのための拡張理論定式化を提示する。具体的には、線形倒立振子モデル(LIPM)が地形の高低差を扱う上で本質的な限界があるため、区分的斜面LIPM(PS-LIPM)を開発する。この革新的なモデルは、シングルステップのサイクル中に地形の起伏に合わせて重心(CoM)の高さを動的に調整することを可能にする。もう一つの貢献は、重心角運動量(CAM)制御を用いたCoM速度補償のための一般化角運動量ベースLIPM(G-ALIP)を提案したことである。これらの進歩に基づき、我々はモデル予測制御MPC定式化のためのDCMステップ間ダイナミクスを導出し、ステップ位置とステップ持続時間の同時最適化を可能にした。MPCと全身コントローラ(WBC)を統合した階層的制御フレームワークを、凹凸のある飛び石をまたぐ二足歩行運動に対して実装した。その結果、提案した階層制御フレームワークと理論式の有効性が検証された。

要約(オリジナル)

This study presents an enhanced theoretical formulation for bipedal hierarchical control frameworks under uneven terrain conditions. Specifically, owing to the inherent limitations of the Linear Inverted Pendulum Model (LIPM) in handling terrain elevation variations, we develop a Piecewise Slope LIPM (PS-LIPM). This innovative model enables dynamic adjustment of the Center of Mass (CoM) height to align with topographical undulations during single-step cycles. Another contribution is proposed a generalized Angular Momentum-based LIPM (G-ALIP) for CoM velocity compensation using Centroidal Angular Momentum (CAM) regulation. Building upon these advancements, we derive the DCM step-to-step dynamics for Model Predictive Control MPC formulation, enabling simultaneous optimization of step position and step duration. A hierarchical control framework integrating MPC with a Whole-Body Controller (WBC) is implemented for bipedal locomotion across uneven stepping stones. The results validate the efficacy of the proposed hierarchical control framework and the theoretical formulation.

arxiv情報

著者 Yapeng Shi,Sishu Li,Yongqiang Wu,Junjie Liu,Xiaokun Leng,Xizhe Zang,Songhao Piao
発行日 2025-04-03 03:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Bipedal Robust Walking on Uneven Footholds: Piecewise Slope LIPM with Discrete Model Predictive Control はコメントを受け付けていません

MinkOcc: Towards real-time label-efficient semantic occupancy prediction

要約

3Dセマンティック占有予測モデルの開発は、多くの場合、教師あり学習のための高密度な3Dアノテーションに依存しており、そのプロセスは労力とリソースを必要とする。これを解決するために、我々はMinkOccを紹介する。MinkOccは、カメラとLiDARのためのマルチモーダル3Dセマンティック占有予測フレームワークであり、2段階の半教師付き学習手順を提案する。ここで、明示的に3Dアノテーションの小さなデータセットが学習プロセスをウォームスタートさせ、次に、より単純なアノテーションが蓄積されたLiDARの掃引と画像(ビジョンの基礎モデルを通して意味的にラベリングされた)によって監視が継続される。MinkOccは、これらのセンサリッチな監視キューを効果的に利用し、競争力のある精度を維持しながら、手動ラベリングへの依存を90%削減する。さらに、提案モデルは、早期フュージョンによりLiDARとカメラデータからの情報を組み込み、リアルタイム予測のためにスパース畳み込みネットワークを活用する。監視と計算の両方において効率的であることから、我々はMinkOccをキュレーションされたデータセット以外にも拡張し、自律走行における3D意味的占有予測の幅広い実世界展開を可能にすることを目指している。

要約(オリジナル)

Developing 3D semantic occupancy prediction models often relies on dense 3D annotations for supervised learning, a process that is both labor and resource-intensive, underscoring the need for label-efficient or even label-free approaches. To address this, we introduce MinkOcc, a multi-modal 3D semantic occupancy prediction framework for cameras and LiDARs that proposes a two-step semi-supervised training procedure. Here, a small dataset of explicitly 3D annotations warm-starts the training process; then, the supervision is continued by simpler-to-annotate accumulated LiDAR sweeps and images — semantically labelled through vision foundational models. MinkOcc effectively utilizes these sensor-rich supervisory cues and reduces reliance on manual labeling by 90\% while maintaining competitive accuracy. In addition, the proposed model incorporates information from LiDAR and camera data through early fusion and leverages sparse convolution networks for real-time prediction. With its efficiency in both supervision and computation, we aim to extend MinkOcc beyond curated datasets, enabling broader real-world deployment of 3D semantic occupancy prediction in autonomous driving.

arxiv情報

著者 Samuel Sze,Daniele De Martini,Lars Kunze
発行日 2025-04-03 04:31:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | MinkOcc: Towards real-time label-efficient semantic occupancy prediction はコメントを受け付けていません

X-Capture: An Open-Source Portable Device for Multi-Sensory Learning

要約

複数の感覚モダリティを通して物体を理解することは、人間の知覚の基本であり、感覚を横断的に統合し、より豊かな理解を可能にする。AIやロボットシステムがこの能力を再現するためには、多様で高品質な多感覚データへのアクセスが不可欠です。既存のデータセットは、制御された環境、シミュレートされた物体、または限定されたモダリティの組み合わせに焦点を当てているため、しばしば制限されています。X-Captureは、実世界の多感覚データ収集のための、オープンソースで、ポータブルで、費用対効果の高いデバイスであり、相関するRGBD画像、触覚測定値、衝撃音声をキャプチャすることができる。X-Captureは1,000ドル以下のコストで、マルチセンサリー・データセットの作成を民主化します。X-Captureを使用して、多様な実世界の環境から500の日常的なオブジェクトの合計3,000点のサンプルデータセットを作成し、豊かさと多様性の両方を提供する。我々の実験は、感覚横断的な検索や再構築のようなオブジェクト中心のタスクのためのマルチモーダル表現の事前訓練と微調整の両方に、データの量と感覚の幅の両方の価値を実証している。X-Captureは、スケーラビリティ、アクセシビリティ、実世界での適用可能性を重視し、AIにおける人間のような感覚表現を進歩させるための基礎を築く。

要約(オリジナル)

Understanding objects through multiple sensory modalities is fundamental to human perception, enabling cross-sensory integration and richer comprehension. For AI and robotic systems to replicate this ability, access to diverse, high-quality multi-sensory data is critical. Existing datasets are often limited by their focus on controlled environments, simulated objects, or restricted modality pairings. We introduce X-Capture, an open-source, portable, and cost-effective device for real-world multi-sensory data collection, capable of capturing correlated RGBD images, tactile readings, and impact audio. With a build cost under $1,000, X-Capture democratizes the creation of multi-sensory datasets, requiring only consumer-grade tools for assembly. Using X-Capture, we curate a sample dataset of 3,000 total points on 500 everyday objects from diverse, real-world environments, offering both richness and variety. Our experiments demonstrate the value of both the quantity and the sensory breadth of our data for both pretraining and fine-tuning multi-modal representations for object-centric tasks such as cross-sensory retrieval and reconstruction. X-Capture lays the groundwork for advancing human-like sensory representations in AI, emphasizing scalability, accessibility, and real-world applicability.

arxiv情報

著者 Samuel Clarke,Suzannah Wistreich,Yanjie Ze,Jiajun Wu
発行日 2025-04-03 06:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | X-Capture: An Open-Source Portable Device for Multi-Sensory Learning はコメントを受け付けていません

HEROS: Hierarchical Exploration with Online Subregion Updating for 3D Environment Coverage

要約

未知の環境を効率的に探索するための自律型探索システムを提案する。まず、迅速な環境前処理法を導入し、その後の探査計画に必要な環境情報を提供する。次に、探索空間全体を、それぞれ詳細度の異なる複数の小領域セルに分割する。小領域セルはオンラインで分解と更新が可能であり、解像度が変化する動的な未知領域を効果的に特徴付ける。最後に、階層的計画戦略はサブリージョンを基本的な計画単位として扱い、効率的なグローバルカバレッジパスを計算する。グローバル経路に導かれ、視点集合を順次訪問するローカル経路が洗練され、ロボットに実行可能な経路を提供する。この粗いステップから細かいステップへの階層的計画により、探索効率を向上させながら、計画スキームの複雑さを軽減する。提案手法をベンチマーク環境において、最新の手法と比較した。我々の手法は、より少ない計算資源で探索を完了する優れた効率を示す。

要約(オリジナル)

We present an autonomous exploration system for efficient coverage of unknown environments. First, a rapid environment preprocessing method is introduced to provide environmental information for subsequent exploration planning. Then, the whole exploration space is divided into multiple subregion cells, each with varying levels of detail. The subregion cells are capable of decomposition and updating online, effectively characterizing dynamic unknown regions with variable resolution. Finally, the hierarchical planning strategy treats subregions as basic planning units and computes an efficient global coverage path. Guided by the global path, the local path that sequentially visits the viewpoint set is refined to provide an executable path for the robot. This hierarchical planning from coarse to fine steps reduces the complexity of the planning scheme while improving exploration efficiency. The proposed method is compared with state-of-art methods in benchmark environments. Our approach demonstrates superior efficiency in completing exploration while using lower computational resources.

arxiv情報

著者 Shijun Long,Ying Li,Chenming Wu,Bin Xu,Wei Fan
発行日 2025-04-03 07:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | HEROS: Hierarchical Exploration with Online Subregion Updating for 3D Environment Coverage はコメントを受け付けていません

All-day Depth Completion via Thermal-LiDAR Fusion

要約

疎なLiDARやRGB画像から密な深度を推定する深度補完は、明るい条件下で優れた性能を発揮してきた。しかし、RGBセンサーの限界のため、既存の方法は、しばしば豪雨や低照度条件などの過酷な環境で信頼性の高いパフォーマンスを達成するのに苦労しています。さらに、グラウンドトゥルースの深度マップは、大雨のような悪天候では測定値が欠落することが多く、十分な監視ができないことがあります。対照的に、サーマルカメラはこのような条件下でも鮮明で信頼性の高い視界を提供することが知られていますが、サーマルLiDARによる深度補完に関する研究はまだ十分に行われていません。さらに、ぼやけ、低コントラスト、ノイズといった熱画像の特性は、不明瞭な深度境界の問題をもたらす。これらの課題を解決するために、我々はまず、MS$^2$データセットとViViDデータセットの広範なベンチマークを実施することで、多様な照明(例えば、明るい、暗い)、天候(例えば、晴天、雨天)、環境(例えば、屋内、屋外)条件下での熱-LiDAR奥行き補完の実現可能性とロバスト性を評価する。さらに、COPS(COntrastive learning and Pseudo Supervision)を利用したフレームワークを提案し、2つの重要な方法で奥行き基礎モデルを活用することで、奥行き境界の明瞭性を高め、補完精度を向上させる。第一に、COPSは奥行き境界を鮮明にするために、単眼の奥行き基礎モデルを用いて正と負のサンプルをマイニングすることにより、異なる奥行き点間の奥行きを意識したコントラスト損失を強制する。第二に、基礎モデルの予測を密な深度プライアとして活用することで、グランドトゥルースの深度マップからの不完全な監視の問題を緩和する。また、このタスクを理解し、将来の研究を促進するために、熱LiDAR深度補完における主要な課題の詳細な分析を提供する。

要約(オリジナル)

Depth completion, which estimates dense depth from sparse LiDAR and RGB images, has demonstrated outstanding performance in well-lit conditions. However, due to the limitations of RGB sensors, existing methods often struggle to achieve reliable performance in harsh environments, such as heavy rain and low-light conditions. Furthermore, we observe that ground truth depth maps often suffer from large missing measurements in adverse weather conditions such as heavy rain, leading to insufficient supervision. In contrast, thermal cameras are known for providing clear and reliable visibility in such conditions, yet research on thermal-LiDAR depth completion remains underexplored. Moreover, the characteristics of thermal images, such as blurriness, low contrast, and noise, bring unclear depth boundary problems. To address these challenges, we first evaluate the feasibility and robustness of thermal-LiDAR depth completion across diverse lighting (eg., well-lit, low-light), weather (eg., clear-sky, rainy), and environment (eg., indoor, outdoor) conditions, by conducting extensive benchmarks on the MS$^2$ and ViViD datasets. In addition, we propose a framework that utilizes COntrastive learning and Pseudo-Supervision (COPS) to enhance depth boundary clarity and improve completion accuracy by leveraging a depth foundation model in two key ways. First, COPS enforces a depth-aware contrastive loss between different depth points by mining positive and negative samples using a monocular depth foundation model to sharpen depth boundaries. Second, it mitigates the issue of incomplete supervision from ground truth depth maps by leveraging foundation model predictions as dense depth priors. We also provide in-depth analyses of the key challenges in thermal-LiDAR depth completion to aid in understanding the task and encourage future research.

arxiv情報

著者 Janghyun Kim,Minseong Kweon,Jinsun Park,Ukcheol Shin
発行日 2025-04-03 07:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | All-day Depth Completion via Thermal-LiDAR Fusion はコメントを受け付けていません

STEAK: Streaming Network for Continual Learning of Object Relocations under Household Context Drifts

要約

実世界では、ロボットは多様なタスクで人間を支援し、なおかつ時間経過に伴うダイナミックな変化に継続的に適応することが期待されている。例えば、家庭環境において、ロボットは学習されたルーチンに基づいて必要な物を取ってくることで、ユーザーを積極的に支援することができる。しかし、このようなインタラクションから得られるデータは、本質的に非独立的であり、非同一分布(non-i.i.d.)である。例えば、複数のユーザーを支援するロボットは、個人が異なる習慣に従っているため、様々なデータ分布に遭遇する可能性がある。これは、壊滅的な忘却なしに新しい知識を統合するという課題を生み出す。これに対処するために、我々はSTREAK(Spatio Temporal RElocation with Adaptive Knowledge retention)を提案する。STREAKは、実世界のロボット学習のための継続的学習フレームワークである。STREAKは、ストリーミンググラフニューラルネットワークと、正則化およびリハーサル技術を活用し、過去の知識を保持しながらコンテキストのドリフトを緩和する。本手法は時間効率とメモリ効率が高く、実世界のインタラクションにおいてデータが増大するにつれて実行不可能となる、過去の全てのデータに対する再学習を行うことなく、長期的な学習を可能にする。我々はSTREAKを、様々な家庭における50日以上の人間の行動を段階的に予測するタスクで評価した。その結果、STREAKは汎化を維持しつつ、壊滅的な忘却を効果的に防ぐことができ、長期的な人間とロボットの相互作用のためのスケーラブルなソリューションであることが示された。

要約(オリジナル)

In real-world settings, robots are expected to assist humans across diverse tasks and still continuously adapt to dynamic changes over time. For example, in domestic environments, robots can proactively help users by fetching needed objects based on learned routines, which they infer by observing how objects move over time. However, data from these interactions are inherently non-independent and non-identically distributed (non-i.i.d.), e.g., a robot assisting multiple users may encounter varying data distributions as individuals follow distinct habits. This creates a challenge: integrating new knowledge without catastrophic forgetting. To address this, we propose STREAK (Spatio Temporal RElocation with Adaptive Knowledge retention), a continual learning framework for real-world robotic learning. It leverages a streaming graph neural network with regularization and rehearsal techniques to mitigate context drifts while retaining past knowledge. Our method is time- and memory-efficient, enabling long-term learning without retraining on all past data, which becomes infeasible as data grows in real-world interactions. We evaluate STREAK on the task of incrementally predicting human routines over 50+ days across different households. Results show that it effectively prevents catastrophic forgetting while maintaining generalization, making it a scalable solution for long-term human-robot interactions.

arxiv情報

著者 Ermanno Bartoli,Fethiye Irmak Dogan,Iolanda Leite
発行日 2025-04-03 07:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | STEAK: Streaming Network for Continual Learning of Object Relocations under Household Context Drifts はコメントを受け付けていません

A Framework for Adapting Human-Robot Interaction to Diverse User Groups

要約

実世界において多様なユーザーグループとの自然で直感的なインタラクションを促進するためには、ソーシャルロボットは、ユーザーからのフィードバックに基づいて行動を適応させながら、これらのグループの様々な要求や期待に対応できなければならない。これまでの研究では、特定のユーザー層に焦点を当てたものが多かったが、我々は、様々なユーザーグループに合わせてインタラクションを調整し、個々のユーザーが些細な中断と大きな中断の両方を通じてインタラクションを調整することを可能にする、適応的な人間とロボットのインタラクション(HRI)のための新しいフレームワークを提示する。我々の主な貢献は、オープンソースのコードベースを持つ適応的なROSベースのHRIフレームワークの開発である。このフレームワークは、高度な音声認識と音声アクティビティ検出により自然な対話をサポートし、対話ブリッジとして大規模言語モデル(LLM)を活用する。我々は、モジュールテストとシステムトライアルを通じて、我々のフレームワークの効率性を検証し、年齢認識における高い精度と、繰り返されるユーザー入力とプラン変更に対する頑健性を実証する。

要約(オリジナル)

To facilitate natural and intuitive interactions with diverse user groups in real-world settings, social robots must be capable of addressing the varying requirements and expectations of these groups while adapting their behavior based on user feedback. While previous research often focuses on specific demographics, we present a novel framework for adaptive Human-Robot Interaction (HRI) that tailors interactions to different user groups and enables individual users to modulate interactions through both minor and major interruptions. Our primary contributions include the development of an adaptive, ROS-based HRI framework with an open-source code base. This framework supports natural interactions through advanced speech recognition and voice activity detection, and leverages a large language model (LLM) as a dialogue bridge. We validate the efficiency of our framework through module tests and system trials, demonstrating its high accuracy in age recognition and its robustness to repeated user inputs and plan changes.

arxiv情報

著者 Theresa Pekarek Rosin,Vanessa Hassouna,Xiaowen Sun,Luca Krohm,Henri-Leon Kordt,Michael Beetz,Stefan Wermter
発行日 2025-04-03 08:22:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.HC, cs.RO | A Framework for Adapting Human-Robot Interaction to Diverse User Groups はコメントを受け付けていません

On learning racing policies with reinforcement learning

要約

完全自律走行車は、安全性と効率の向上を約束する。しかし、困難なコーナーケースにおいて信頼性の高い運転を確保するには、車両の限界で性能を発揮できる制御アルゴリズムが必要である。我々は、自律的なレースという課題を考慮し、強化学習(RL)を用いたレースポリシーの学習によってこの課題を解決することを提案する。我々のアプローチは、領域ランダム化、アクチュエータダイナミクスモデリング、ポリシーアーキテクチャ設計を活用し、実際のプラットフォーム上で信頼性が高く安全なゼロショット展開を可能にする。F1TENTHレースカーで評価された我々のRLポリシーは、最先端のモデル予測制御(MPC)を凌ぐだけでなく、我々の知る限り、RCレースにおいてRLポリシーが熟練した人間のドライバーを凌駕した最初の事例でもある。本研究では、この性能向上をもたらす主要因を明らかにし、自律走行車のためのロバストなRLベースの制御戦略の設計に重要な知見を提供する。

要約(オリジナル)

Fully autonomous vehicles promise enhanced safety and efficiency. However, ensuring reliable operation in challenging corner cases requires control algorithms capable of performing at the vehicle limits. We address this requirement by considering the task of autonomous racing and propose solving it by learning a racing policy using Reinforcement Learning (RL). Our approach leverages domain randomization, actuator dynamics modeling, and policy architecture design to enable reliable and safe zero-shot deployment on a real platform. Evaluated on the F1TENTH race car, our RL policy not only surpasses a state-of-the-art Model Predictive Control (MPC), but, to the best of our knowledge, also represents the first instance of an RL policy outperforming expert human drivers in RC racing. This work identifies the key factors driving this performance improvement, providing critical insights for the design of robust RL-based control strategies for autonomous vehicles.

arxiv情報

著者 Grzegorz Czechmanowski,Jan Węgrzynowski,Piotr Kicki,Krzysztof Walas
発行日 2025-04-03 09:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | On learning racing policies with reinforcement learning はコメントを受け付けていません

Estimating Scene Flow in Robot Surroundings with Distributed Miniaturized Time-of-Flight Sensors

要約

ロボットの周囲の人間や物体の動きを追跡することは、ロボットの安全な動作や反応を向上させるために不可欠である。本研究では、ロボットの胴体上に配置された小型飛行時間(Time of Flight:ToF)センサーから取得された、低密度でノイズの多い点群からシーンフローを推定するアプローチを提案する。提案手法は、連続するフレームから点をクラスタリングし、センサノイズと低密度のデータ点の影響を緩和するための追加ステップを導入した、高密度のモーションフローを推定するための反復最接近(ICP)を適用する。具体的には、静止点と移動点を区別するためにフィットネスベースの分類を採用し、幾何学的対応を洗練するためにインライア除去戦略を採用する。提案手法は、24個のToFを用いて、制御された異なる速度で移動する物体の速度を推定する実験セットアップで検証される。実験結果は、本手法が一貫して、センサノイズと同程度の誤差で、動きの方向とその大きさを近似することを示している。

要約(オリジナル)

Tracking motions of humans or objects in the surroundings of the robot is essential to improve safe robot motions and reactions. In this work, we present an approach for scene flow estimation from low-density and noisy point clouds acquired from miniaturized Time of Flight (ToF) sensors distributed on the robot body. The proposed method clusters points from consecutive frames and applies Iterative Closest Point (ICP) to estimate a dense motion flow, with additional steps introduced to mitigate the impact of sensor noise and low-density data points. Specifically, we employ a fitness-based classification to distinguish between stationary and moving points and an inlier removal strategy to refine geometric correspondences. The proposed approach is validated in an experimental setup where 24 ToF are used to estimate the velocity of an object moving at different controlled speeds. Experimental results show that the method consistently approximates the direction of the motion and its magnitude with an error which is in line with sensor noise.

arxiv情報

著者 Jack Sander,Giammarco Caroleo,Alessandro Albini,Perla Maiolino
発行日 2025-04-03 09:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Estimating Scene Flow in Robot Surroundings with Distributed Miniaturized Time-of-Flight Sensors はコメントを受け付けていません

R+X: Retrieval and Execution from Everyday Human Videos

要約

我々は、ロボットが日常的なタスクを実行している、ラベル付けされていない、一人称の長い動画からスキルを学習することを可能にするフレームワーク、R+Xを紹介する。人間からの言語コマンドが与えられると、R+Xはまず関連する動作を含む短いビデオクリップを検索し、次にこの動作に文脈内模倣学習法(KAT)を条件付けることによってスキルを実行する。検索に視覚言語モデル(VLM)を活用することで、R+Xは動画の手動アノテーションを必要とせず、実行に文脈内学習を活用することで、ロボットは検索された動画で一定期間の訓練を必要とせず、命令されたスキルを即座に実行することができる。R+Xは、ラベル付けされていない人間の映像をロボットのスキルに変換することに成功し、R+Xが最近のいくつかの代替手法を凌駕していることが、日常的な家庭での様々なタスクを研究した実験により示されている。動画とコードはhttps://www.robot-learning.uk/r-plus-x。

要約(オリジナル)

We present R+X, a framework which enables robots to learn skills from long, unlabelled, first-person videos of humans performing everyday tasks. Given a language command from a human, R+X first retrieves short video clips containing relevant behaviour, and then executes the skill by conditioning an in-context imitation learning method (KAT) on this behaviour. By leveraging a Vision Language Model (VLM) for retrieval, R+X does not require any manual annotation of the videos, and by leveraging in-context learning for execution, robots can perform commanded skills immediately, without requiring a period of training on the retrieved videos. Experiments studying a range of everyday household tasks show that R+X succeeds at translating unlabelled human videos into robust robot skills, and that R+X outperforms several recent alternative methods. Videos and code are available at https://www.robot-learning.uk/r-plus-x.

arxiv情報

著者 Georgios Papagiannis,Norman Di Palo,Pietro Vitiello,Edward Johns
発行日 2025-04-03 10:12:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | R+X: Retrieval and Execution from Everyday Human Videos はコメントを受け付けていません