EndoForce: Development of an Intuitive Axial Force Measurement Device for Endoscopic Robotic Systems

要約

ロボット内視鏡システムは、直感的な制御を提供し、放射線曝露を排除し、従来の方法の有望な代替手段とします。
ただし、ロボットからの軸方向の力測定の欠如は、過度の結腸伸長、穿孔、または尿管合併症につながる可能性があるため、大きな課題のままです。
以前の研究ではさまざまな方法が提案されていますが、モデル依存、かさばり、環境感受性などの制限は、臨床応用の前に対処すべき課題のままです。
この研究では、内視鏡ロボットシステムにおける直感的で正確な軸力測定用に設計されたデバイスであるEndoforceを提案します。
尿管鏡検査および胃腸(GI)内視鏡検査中に医師によって行われた挿入運動に触発されたEndoforceは、臨床環境との互換性を維持しながら、正確な力の測定を保証します。
このデバイスは、合理化された設計を備えており、滅菌カバーの簡単なアタッチメントと剥離を可能にし、コスト効率を高め、実際の医療用途での実用的な実装を促進するための市販のロードセルを組み込んでいます。
提案されたEndoforceの有効性を検証するために、尿管をシミュレートするテストベッドを使用して物理実験を実行しました。
挿入中に生成された軸力は、ヒト尿管をシミュレートするテストベッドで、経路が直線であるか曲がっているかに関係なく、高精度で測定されたことを示します。

要約(オリジナル)

Robotic endoscopic systems provide intuitive control and eliminate radiation exposure, making them a promising alternative to conventional methods. However, the lack of axial force measurement from the robot remains a major challenge, as it can lead to excessive colonic elongation, perforation, or ureteral complications. Although various methods have been proposed in previous studies, limitations such as model dependency, bulkiness, and environmental sensitivity remain challenges that should be addressed before clinical application. In this study, we propose EndoForce, a device designed for intuitive and accurate axial force measurement in endoscopic robotic systems. Inspired by the insertion motion performed by medical doctors during ureteroscopy and gastrointestinal (GI) endoscopy, EndoForce ensures precise force measuring while maintaining compatibility with clinical environments. The device features a streamlined design, allowing for the easy attachment and detachment of a sterile cover, and incorporates a commercial load cell to enhance cost-effectiveness and facilitate practical implementation in real medical applications. To validate the effectiveness of the proposed EndoForce, physical experiments were performed using a testbed that simulates the ureter. We show that the axial force generated during insertion was measured with high accuracy, regardless of whether the pathway was straight or curved, in a testbed simulating the human ureter.

arxiv情報

著者 Hansoul Kim,Dong-Ho Lee,Dukyoo Kong,Dong-Soo Kwon,Byungsik Cheon
発行日 2025-05-19 02:15:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EndoForce: Development of an Intuitive Axial Force Measurement Device for Endoscopic Robotic Systems はコメントを受け付けていません

MSCEKF-MIO: Magnetic-Inertial Odometry Based on Multi-State Constraint Extended Kalman Filter

要約

多くの場合、精度の費用対効果の要件を同時に満たすことができない既存の屋内臭気技術の制限を克服するために、堅牢性 – この論文は、新しい磁力計アレイ支援慣性臭気測定アプローチであるMSCEKF-MIO(マルチステート制約拡張カルマンフィルターベースの磁気腫法)を提案します。
磁力計アレイから測定値をフィッティングすることにより磁場モデルを構築し、連続的な観測から抽出されたこのモデルの時間的変動を使用して、キャリアの絶対速度を推定します。
さらに、MSCEKFフレームワークを実装して、観測された磁場変動を慣性航法システム(INS)統合からの位置と態度の推定で融合し、それによって自律的で高精度の屋内相対位置付けを可能にします。
実験結果は、提案されたアルゴリズムが、最先端の磁気アレイ支援INSアルゴリズム(MANS)と比較して、優れた速度推定精度と水平位置決め精度を達成することを示しています。
150〜250mの軌道長のデータセットでは、提案された方法では、平均水平位置rmseが約2.5mになります。
特徴的な磁気特徴を備えた領域では、磁気介入臭気は0.07m/sの速度推定精度を達成します。
その結果、提案された方法は、複雑な屋内環境での低消費電力、費用対効果、および高い信頼性を特徴とする新しいポジショニングソリューションを提供します。

要約(オリジナル)

To overcome the limitation of existing indoor odometry technologies which often cannot simultaneously meet requirements for accuracy cost-effectiveness, and robustness-this paper proposes a novel magnetometer array-aided inertial odometry approach, MSCEKF-MIO (Multi-State Constraint Extended Kalman Filter-based Magnetic-Inertial Odometry). We construct a magnetic field model by fitting measurements from the magnetometer array and then use temporal variations in this model-extracted from continuous observations-to estimate the carrier’s absolute velocity. Furthermore, we implement the MSCEKF framework to fuse observed magnetic field variations with position and attitude estimates from inertial navigation system (INS) integration, thereby enabling autonomous, high-precision indoor relative positioning. Experimental results demonstrate that the proposed algorithm achieves superior velocity estimation accuracy and horizontal positioning precision relative to state-of-the-art magnetic array-aided INS algorithms (MAINS). On datasets with trajectory lengths of 150-250m, the proposed method yields an average horizontal position RMSE of approximately 2.5m. In areas with distinctive magnetic features, the magneto-inertial odometry achieves a velocity estimation accuracy of 0.07m/s. Consequently, the proposed method offers a novel positioning solution characterized by low power consumption, cost-effectiveness, and high reliability in complex indoor environments.

arxiv情報

著者 Jiazhu Li,Jian Kuang,Xiaoji,Niu
発行日 2025-05-19 02:39:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SP, eess.SY | MSCEKF-MIO: Magnetic-Inertial Odometry Based on Multi-State Constraint Extended Kalman Filter はコメントを受け付けていません

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

要約

この論文では、空間的理解はロボット操作のキーポイントであると主張し、ロボットファンデーションモデルの効果的な空間表現を調査するために空間を提案します。
具体的には、3D情報を視覚言語アクションモデルの入力観測に注入するためのEGO3D位置エンコードを導入し、適応性のある離散アクショングリッドを使用して空間的ロボット運動アクションを表す適応アクショングリッドを提案し、一般化可能で転送可能な空間アクション知識を促進します。
SpatialVLAは、複数のロボット環境とタスクでジェネラリストの操作ポリシーを学ぶために、110万件の現実世界のロボットエピソードを備えたビジョン言語モデルの上に最初に事前に訓練されています。
トレーニング前の後、SpatialVlaは直接適用され、ゼロショットの方法で多数のタスクを実行します。
シミュレーションと実世界の両方のロボットの両方で優れた結果は、複雑なロボットモーション軌道とその強力なドメイン内マルチタスク一般化能力を推測するという利点を示しています。
さらに、提案されている適応アクショングリッドが、新しいシミュレーションと実際のセットアップのために事前に訓練された空間モデルを微調整する新しい効果的な方法を提供することを示します。ここでは、事前に学習したアクショングリッドが再分割され、新しいセットアップのロボット固有の空間アクションの動きをキャプチャします。
広範な評価からの優れた結果は、例外的な分配的な一般化と分散式適応能力を示しており、一般主義ロボットポリシー学習のための提案された空間認識表現の重要な利点を強調しています。
すべての詳細とコードはオープンソーリングされます。

要約(オリジナル)

In this paper, we claim that spatial understanding is the keypoint in robot manipulation, and propose SpatialVLA to explore effective spatial representations for the robot foundation model. Specifically, we introduce Ego3D Position Encoding to inject 3D information into the input observations of the visual-language-action model, and propose Adaptive Action Grids to represent spatial robot movement actions with adaptive discretized action grids, facilitating learning generalizable and transferrable spatial action knowledge for cross-robot control. SpatialVLA is first pre-trained on top of a vision-language model with 1.1 Million real-world robot episodes, to learn a generalist manipulation policy across multiple robot environments and tasks. After pre-training, SpatialVLA is directly applied to perform numerous tasks in a zero-shot manner. The superior results in both simulation and real-world robots demonstrate its advantage of inferring complex robot motion trajectories and its strong in-domain multi-task generalization ability. We further show the proposed Adaptive Action Grids offer a new and effective way to fine-tune the pre-trained SpatialVLA model for new simulation and real-world setups, where the pre-learned action grids are re-discretized to capture robot-specific spatial action movements of new setups. The superior results from extensive evaluations demonstrate the exceptional in-distribution generalization and out-of-distribution adaptation capability, highlighting the crucial benefit of the proposed spatial-aware representations for generalist robot policy learning. All the details and codes will be open-sourced.

arxiv情報

著者 Delin Qu,Haoming Song,Qizhi Chen,Yuanqi Yao,Xinyi Ye,Yan Ding,Zhigang Wang,JiaYuan Gu,Bin Zhao,Dong Wang,Xuelong Li
発行日 2025-05-19 02:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model はコメントを受け付けていません

Loop closure grasping: Topological transformations enable strong, gentle, and versatile grasps

要約

把握メカニズムは、安全で効果的なオブジェクトの操作を可能にする握りを作成し、その後把握する必要があります。
既存のメカニズムは、単一の形態を使用して作成のさまざまな機能要件と把握保持のさまざまな機能要件に対処していますが、多くのアプリケーションに必要な同時強度、優しさ、および汎用性をまだ達成していません。
オープンループと閉ループの形態の間のトポロジカル変換を通じてこれらの異なる機能要件に対処するロボット把握のクラスである「ループクロージャーグラッティング」を提示します。
これらの形態を把握し、ループクロージャーグラスピング方法を定式化し、柔らかく成長している膨張ビーム、ウィンチ、クランプを使用して実装する原理とデザインアーキテクチャを提示します。
メカニズムの最初のオープンループトポロジは、妨げられていないチップの動きを介して汎用性の高い把握の作成を可能にし、ループを閉じることで、効果的に無限の曲げコンプライアンスで強力で穏やかな保持を可能にします。
ループ閉鎖の把握は、単一モーフォロジーデザインのトレードオフを回避し、歴史的に挑戦的なオブジェクト、環境、および構成を含む握りを可能にします。

要約(オリジナル)

Grasping mechanisms must both create and subsequently hold grasps that permit safe and effective object manipulation. Existing mechanisms address the different functional requirements of grasp creation and grasp holding using a single morphology, but have yet to achieve the simultaneous strength, gentleness, and versatility needed for many applications. We present ‘loop closure grasping’, a class of robotic grasping that addresses these different functional requirements through topological transformations between open-loop and closed-loop morphologies. We formalize these morphologies for grasping, formulate the loop closure grasping method, and present principles and a design architecture that we implement using soft growing inflated beams, winches, and clamps. The mechanisms’ initial open-loop topology enables versatile grasp creation via unencumbered tip movement, and closing the loop enables strong and gentle holding with effectively infinite bending compliance. Loop closure grasping circumvents the tradeoffs of single-morphology designs, enabling grasps involving historically challenging objects, environments, and configurations.

arxiv情報

著者 Kentaro Barhydt,O. Godson Osele,Sreela Kodali,Cosima du Pasquier,Chase M. Hartquist,H. Harry Asada,Allison M. Okamura
発行日 2025-05-19 02:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Loop closure grasping: Topological transformations enable strong, gentle, and versatile grasps はコメントを受け付けていません

SafeMove-RL: A Certifiable Reinforcement Learning Framework for Dynamic Motion Constraints in Trajectory Planning

要約

この研究では、動的および不確実な環境でのローカルモーション計画のための動的な安全マージンベースの強化学習フレームワークを提示します。
提案されたプランナーは、リアルタイムの軌道最適化と適応ギャップ分析を統合し、部分的な観測可能性制約の下で効果的な実現可能性評価を可能にします。
未知のシナリオの安全性クリティカルな計算に対処するために、制御不変性を維持しながら動的な安全マージンを形成することにより、空間的軌跡を動的に修正するオンライン学習メカニズムが強化されます。
アブレーション研究や最先端の​​アルゴリズムとの比較を含む広範な評価は、優れた成功率と計算効率を示しています。
フレームワークの有効性は、シミュレートされたプラットフォームと物理的なロボットプラットフォームの両方でさらに検証されます。

要約(オリジナル)

This study presents a dynamic safety margin-based reinforcement learning framework for local motion planning in dynamic and uncertain environments. The proposed planner integrates real-time trajectory optimization with adaptive gap analysis, enabling effective feasibility assessment under partial observability constraints. To address safety-critical computations in unknown scenarios, an enhanced online learning mechanism is introduced, which dynamically corrects spatial trajectories by forming dynamic safety margins while maintaining control invariance. Extensive evaluations, including ablation studies and comparisons with state-of-the-art algorithms, demonstrate superior success rates and computational efficiency. The framework’s effectiveness is further validated on both simulated and physical robotic platforms.

arxiv情報

著者 Tengfei Liu,Haoyang Zhong,Jiazheng Hu,Tan Zhang
発行日 2025-05-19 03:00:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SafeMove-RL: A Certifiable Reinforcement Learning Framework for Dynamic Motion Constraints in Trajectory Planning はコメントを受け付けていません

The Robot of Theseus: A modular robotic testbed for legged locomotion

要約

ロボットモデルは、特定の特徴を独立して変化させるのに役立ちますが、ほとんどの四角形ロボットは動物の形態とは大きく異なるため、生体力学的な関連性が最小限に抑えられています。
市販の四足動物ロボットは、生物学的研究プログラムにとっても非常に高価であり、カスタマイズが困難です。
ここでは、生体力学的仮説検査のために幅広い動物の形態に合うモジュラー脚を備えた低コストの4倍ロボットを紹介します。
Theus(Trot)のロボットは、3D印刷された部品と標準的な既製の供給を構築するために約4000ドルかかります。
各肢は、2つまたは3つの剛性リンクで構成されています。
近位関節を回転させて膝または肘にすることができます。
伸縮メカニズムは、各手足リンクの長さを変化させます。
オープンソースソフトウェアは、ユーザー定義の歩行と形態の変化に対応します。
有効な脚の長さ、またはクラウチは、各ジョイントを作動させる4バーリンケージによって決定されます。
バックドライブ可能なモーターは、仮想スプリングの剛性と可動域を変化させることができます。
トロットハードウェアとソフトウェアの完全な説明は、オンラインで自由に利用できます。
現存する、絶滅した、理論的な形態学の移動を比較するために、トロットの使用を実証します。
生体力学的仮説検査に加えて、新しい制御戦略の開発、陸地鉱山のクリア、リモート探査など、この低コストのモジュール式の脚のロボットプラットフォーム向けのさまざまなアプリケーションを想定しています。
すべてのCADとコードは、Trotプロジェクトページからダウンロードできます。

要約(オリジナル)

Robotic models are useful for independently varying specific features, but most quadrupedal robots differ so greatly from animal morphologies that they have minimal biomechanical relevance. Commercially available quadrupedal robots are also prohibitively expensive for biological research programs and difficult to customize. Here, we present a low-cost quadrupedal robot with modular legs that can match a wide range of animal morphologies for biomechanical hypothesis testing. The Robot Of Theseus (TROT) costs approximately $4000 to build out of 3D printed parts and standard off-the-shelf supplies. Each limb consists of 2 or 3 rigid links; the proximal joint can be rotated to become a knee or elbow. Telescoping mechanisms vary the length of each limb link. The open-source software accommodates user-defined gaits and morphology changes. Effective leg length, or crouch, is determined by the four-bar linkage actuating each joint. The backdrivable motors can vary virtual spring stiffness and range of motion. Full descriptions of the TROT hardware and software are freely available online. We demonstrate the use of TROT to compare locomotion among extant, extinct, and theoretical morphologies. In addition to biomechanical hypothesis testing, we envision a variety of different applications for this low-cost, modular, legged robotic platform, including developing novel control strategies, clearing land mines, or remote exploration. All CAD and code is available for download on the TROT project page.

arxiv情報

著者 Karthik Urs,Jessica Carlson,Aditya Srinivas Manohar,Michael Rakowiecki,Abdulhadi Alkayyali,John E. Saunders,Faris Tulbah,Talia Y. Moore
発行日 2025-05-19 03:01:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | The Robot of Theseus: A modular robotic testbed for legged locomotion はコメントを受け付けていません

Digital Twins in the Cloud: A Modular, Scalable and Interoperable Framework for Accelerating Verification and Validation of Autonomous Driving Solutions

要約

自動運転車(AVS)の検証と検証(V&V)には、通常、さまざまな動作環境にわたる徹底的なテストや、現実にキャプチャすることが困難または不可能なレア、極端な、または危険な状況を含む運転シナリオを徹底的にテストする必要があります。
さらに、トラックベースの評価やパブリックロードテストなどの物理V&Vメソッドは、多くの場合、時間、コスト、安​​全性によって制約され、仮想証明の根拠の必要性を動機付けます。
ただし、シミュレーションベースのV&Vメソッドの忠実度とスケーラビリティは、すぐにボトルネックに変わる可能性があります。
このような環境では、この作業は、高性能コンピューティングクラスター(HPCC)内でデジタルツインを柔軟に拡張し、V&Vプロセスを自動化する仮想証明の根拠を提案します。
ここでは、Digital TwinsがAVとその動作環境の高忠実度仮想表現を可能にし、広範なシナリオベースのテストを可能にします。
一方、HPCCインフラストラクチャは、計算能力とスケーラビリティに関して大きな利点をもたらし、シミュレーションの迅速な反復、大量のデータの処理と保存、大規模なテストキャンペーンの展開により、V&Vプロセスに関連する時間とコストが削減されます。
候補の自律アルゴリズムの変動分析に焦点を当てたケーススタディを通じて、このアプローチの有効性を実証し、その認識、計画、および制御サブシステムの潜在的な脆弱性を特定します。
提案されたフレームワークのモジュール性、スケーラビリティ、および相互運用性は、2つの異なるHPCCアーキテクチャで256のテストケースを含むテストキャンペーンを展開して、公開されているリソース設定で継続的な動作を確保することにより実証されます。
調査結果は、提案されたフレームワークがV&Vプロセスを加速および合理化する能力を強調しているため、タイムラインを大幅に圧縮します(〜30倍)。

要約(オリジナル)

Verification and validation (V&V) of autonomous vehicles (AVs) typically requires exhaustive testing across a variety of operating environments and driving scenarios including rare, extreme, or hazardous situations that might be difficult or impossible to capture in reality. Additionally, physical V&V methods such as track-based evaluations or public-road testing are often constrained by time, cost, and safety, which motivates the need for virtual proving grounds. However, the fidelity and scalability of simulation-based V&V methods can quickly turn into a bottleneck. In such a milieu, this work proposes a virtual proving ground that flexibly scales digital twins within high-performance computing clusters (HPCCs) and automates the V&V process. Here, digital twins enable high-fidelity virtual representation of the AV and its operating environments, allowing extensive scenario-based testing. Meanwhile, HPCC infrastructure brings substantial advantages in terms of computational power and scalability, enabling rapid iterations of simulations, processing and storage of massive amounts of data, and deployment of large-scale test campaigns, thereby reducing the time and cost associated with the V&V process. We demonstrate the efficacy of this approach through a case study that focuses on the variability analysis of a candidate autonomy algorithm to identify potential vulnerabilities in its perception, planning, and control sub-systems. The modularity, scalability, and interoperability of the proposed framework are demonstrated by deploying a test campaign comprising 256 test cases on two different HPCC architectures to ensure continuous operation in a publicly shared resource setting. The findings highlight the ability of the proposed framework to accelerate and streamline the V&V process, thereby significantly compressing (~30x) the timeline.

arxiv情報

著者 Tanmay Vilas Samak,Chinmay Vilas Samak,Giovanni Martino,Pranav Nair,Venkat Krovi
発行日 2025-05-19 03:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.RO | Digital Twins in the Cloud: A Modular, Scalable and Interoperable Framework for Accelerating Verification and Validation of Autonomous Driving Solutions はコメントを受け付けていません

Audio-Visual Contact Classification for Tree Structures in Agriculture

要約

剪定や収穫などの農業における接触豊富な操作タスクでは、ロボットが木の構造と物理的に相互作用して、散らかった葉を介して操作する必要があります。
ロボットが剛性材料または柔らかい材料に接触しているかどうかを特定することは、下流の操作ポリシーが安全であるために重要ですが、この非構造化された環境での咬合と限られた視点のために視力だけでは不十分です。
これに対処するために、Vibrotactile(Audio)と視覚入力を融合するマルチモーダル分類フレームワークを提案して、葉、小枝、トランク、または周囲の接触クラスを識別します。
私たちの重要な洞察は、接触誘発振動には材料固有の信号があり、オーディオが接触イベントを検出し、材料タイプを区別するのに効果的であることです。一方、視覚的な機能は、より微細な分類をサポートする補完的なセマンティックキューを追加します。
ハンドヘルドセンサープローブを使用してトレーニングデータを収集し、ロボットに取り付けられたプローブの実施形態にゼロショット一般化を実証し、0.82のF1スコアを達成します。
これらの結果は、構造化されていない接触豊富な環境での操作のための視聴覚学習の可能性を強調しています。

要約(オリジナル)

Contact-rich manipulation tasks in agriculture, such as pruning and harvesting, require robots to physically interact with tree structures to maneuver through cluttered foliage. Identifying whether the robot is contacting rigid or soft materials is critical for the downstream manipulation policy to be safe, yet vision alone is often insufficient due to occlusion and limited viewpoints in this unstructured environment. To address this, we propose a multi-modal classification framework that fuses vibrotactile (audio) and visual inputs to identify the contact class: leaf, twig, trunk, or ambient. Our key insight is that contact-induced vibrations carry material-specific signals, making audio effective for detecting contact events and distinguishing material types, while visual features add complementary semantic cues that support more fine-grained classification. We collect training data using a hand-held sensor probe and demonstrate zero-shot generalization to a robot-mounted probe embodiment, achieving an F1 score of 0.82. These results underscore the potential of audio-visual learning for manipulation in unstructured, contact-rich environments.

arxiv情報

著者 Ryan Spears,Moonyoung Lee,George Kantor,Oliver Kroemer
発行日 2025-05-19 03:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Audio-Visual Contact Classification for Tree Structures in Agriculture はコメントを受け付けていません

Dribble Master: Learning Agile Humanoid Dribbling Through Legged Locomotion

要約

ヒューマノイドサッカードリブルは、動的バランスを維持しながら器用なボール操作を要求する非常に挑戦的なタスクです。
従来のルールベースの方法は、固定された歩行パターンへの依存とリアルタイムボールダイナミクスへの限定的な適応性のために、正確なボールコントロールを実現するのに苦労しています。
これらの課題に対処するために、ヒューマノイドロボットが明示的なダイナミクスや事前定義された軌跡なしでドリブルスキルを習得できるようにする2段階のカリキュラム学習フレームワークを提案します。
最初の段階では、ロボットは基本的な移動スキルを学びます。
第2段階では、アジャイルドリブル操作のポリシーを微調整します。
さらに、シミュレーションと設計で仮想カメラモデルを紹介し、アクティブなセンシングを促進し、継続的なボール知覚のためのより広い視覚範囲を促進します。
このポリシーはシミュレーションの訓練を受け、物理的なヒューマノイドロボットに正常に転送されます。
実験結果は、私たちの方法が効果的なボール操作を可能にし、複数の環境で柔軟で視覚的に魅力的なドリブル行動を実現することを示しています。
この作業は、アジャイルヒューマノイドサッカーロボットの開発における強化学習の可能性を強調しています。
追加の詳細、ビデオデモ、およびコードは、https://zhuoheng0910.github.io/dribble-master/で入手できます。

要約(オリジナル)

Humanoid soccer dribbling is a highly challenging task that demands dexterous ball manipulation while maintaining dynamic balance. Traditional rule-based methods often struggle to achieve accurate ball control due to their reliance on fixed walking patterns and limited adaptability to real-time ball dynamics. To address these challenges, we propose a two-stage curriculum learning framework that enables a humanoid robot to acquire dribbling skills without explicit dynamics or predefined trajectories. In the first stage, the robot learns basic locomotion skills; in the second stage, we fine-tune the policy for agile dribbling maneuvers. We further introduce a virtual camera model in simulation and design heuristic rewards to encourage active sensing, promoting a broader visual range for continuous ball perception. The policy is trained in simulation and successfully transferred to a physical humanoid robot. Experimental results demonstrate that our method enables effective ball manipulation, achieving flexible and visually appealing dribbling behaviors across multiple environments. This work highlights the potential of reinforcement learning in developing agile humanoid soccer robots. Additional details, video demonstrations, and code are available at https://zhuoheng0910.github.io/dribble-master/.

arxiv情報

著者 Zhuoheng Wang,Jinyin Zhou,Qi Wu
発行日 2025-05-19 03:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dribble Master: Learning Agile Humanoid Dribbling Through Legged Locomotion はコメントを受け付けていません

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories

要約

Dreamgenを紹介します。これは、神経軌道を通じて行動や環境全体で一般化するロボットポリシーをトレーニングするためのシンプルでありながら非常に効果的な4段階のパイプライン – ビデオ世界モデルから生成された合成ロボットデータです。
Dreamgenは、最新の画像からビデオへの生成モデルを活用し、ターゲットロボットの具体化に適応して、多様な環境で馴染みのあるまたは斬新なタスクのフォトリアリスティックな合成ビデオを作成します。
これらのモデルはビデオのみを生成するため、潜在的なアクションモデルまたはinversed-dynamicsモデル(IDM)のいずれかを使用して、擬似アクションシーケンスを回復します。
そのシンプルさにもかかわらず、Dreamgenは強力な行動と環境の一般化を解き放ちます。ヒューマノイドロボットは、見られた環境と目に見えない環境の両方で22の新しい動作を実行できますが、1つの環境で1つのピックアンドプレイスタスクのみからテレオ操作データを必要とします。
パイプラインを体系的に評価するために、ベンチマークのパフォーマンスとダウンストリームポリシーの成功との間に強い相関関係を示すビデオ生成ベンチマークであるDreamGen Benchを紹介します。
私たちの仕事は、手動データ収集を超えてロボット学習をスケーリングするための有望な新しい軸を確立します。

要約(オリジナル)

We introduce DreamGen, a simple yet highly effective 4-stage pipeline for training robot policies that generalize across behaviors and environments through neural trajectories – synthetic robot data generated from video world models. DreamGen leverages state-of-the-art image-to-video generative models, adapting them to the target robot embodiment to produce photorealistic synthetic videos of familiar or novel tasks in diverse environments. Since these models generate only videos, we recover pseudo-action sequences using either a latent action model or an inverse-dynamics model (IDM). Despite its simplicity, DreamGen unlocks strong behavior and environment generalization: a humanoid robot can perform 22 new behaviors in both seen and unseen environments, while requiring teleoperation data from only a single pick-and-place task in one environment. To evaluate the pipeline systematically, we introduce DreamGen Bench, a video generation benchmark that shows a strong correlation between benchmark performance and downstream policy success. Our work establishes a promising new axis for scaling robot learning well beyond manual data collection.

arxiv情報

著者 Joel Jang,Seonghyeon Ye,Zongyu Lin,Jiannan Xiang,Johan Bjorck,Yu Fang,Fengyuan Hu,Spencer Huang,Kaushil Kundalia,Yen-Chen Lin,Loic Magne,Ajay Mandlekar,Avnish Narayan,You Liang Tan,Guanzhi Wang,Jing Wang,Qi Wang,Yinzhen Xu,Xiaohui Zeng,Kaiyuan Zheng,Ruijie Zheng,Ming-Yu Liu,Luke Zettlemoyer,Dieter Fox,Jan Kautz,Scott Reed,Yuke Zhu,Linxi Fan
発行日 2025-05-19 04:55:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories はコメントを受け付けていません