Map Space Belief Prediction for Manipulation-Enhanced Mapping

要約

散らかった環境でオブジェクトを検索するには、オクルージョンを削除し、オブジェクトの位置、形状、カテゴリの不確実性を減らすために、効率的な視点と操作アクションを選択する必要があります。
この作業では、操作が強化されたセマンティックマッピングの問題に対処します。ここでは、ロボットが散らかった棚のすべてのオブジェクトを効率的に識別する必要があります。
部分的に観察可能なマルコフ決定プロセス〜(POMDP)は不確実性の下での意思決定の標準ですが、非構造化されたインタラクティブな世界を表すこの形式主義では依然として挑戦的です。
これに取り組むために、メトリックセマンチックなグリッドマップによって信念が要約されているPOMDPを定義し、ニューラルネットワークを使用してオブジェクトの幾何学、位置、カテゴリ、オクルージャー、および操作物理学について効率的かつ同時に推論的に推論するためにマップ空間信念の更新を実行する新しいフレームワークを提案します。
さらに、正確な情報ゲイン分析を有効にするために、学習された信念の更新は、不確実性の校正された推定値を維持する必要があります。
したがって、校正済みのニューラル加速化された信念更新(CNABU)を提案して、新しいシナリオに一般化し、未知の領域に信頼性の校正予測を提供する信念伝播モデルを学習します。
私たちの実験は、私たちの新しいPOMDPプランナーが、挑戦的なシミュレーションにおける既存の方法に対するマップの完全性と正確性を改善し、ゼロショットで実際の散らかった棚に正常に転送することを示しています。

要約(オリジナル)

Searching for objects in cluttered environments requires selecting efficient viewpoints and manipulation actions to remove occlusions and reduce uncertainty in object locations, shapes, and categories. In this work, we address the problem of manipulation-enhanced semantic mapping, where a robot has to efficiently identify all objects in a cluttered shelf. Although Partially Observable Markov Decision Processes~(POMDPs) are standard for decision-making under uncertainty, representing unstructured interactive worlds remains challenging in this formalism. To tackle this, we define a POMDP whose belief is summarized by a metric-semantic grid map and propose a novel framework that uses neural networks to perform map-space belief updates to reason efficiently and simultaneously about object geometries, locations, categories, occlusions, and manipulation physics. Further, to enable accurate information gain analysis, the learned belief updates should maintain calibrated estimates of uncertainty. Therefore, we propose Calibrated Neural-Accelerated Belief Updates (CNABUs) to learn a belief propagation model that generalizes to novel scenarios and provides confidence-calibrated predictions for unknown areas. Our experiments show that our novel POMDP planner improves map completeness and accuracy over existing methods in challenging simulations and successfully transfers to real-world cluttered shelves in zero-shot fashion.

arxiv情報

著者 Joao Marcos Correia Marques,Nils Dengler,Tobias Zaenker,Jesper Mucke,Shenlong Wang,Maren Bennewitz,Kris Hauser
発行日 2025-05-27 05:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Map Space Belief Prediction for Manipulation-Enhanced Mapping はコメントを受け付けていません

Interactive OT Gym: A Reinforcement Learning-Based Interactive Optical tweezer (OT)-Driven Microrobotics Simulation Platform

要約

光学ピンセット(OT)は、生物医学用途でのサブミクロン精度を使用して、マイクロマニキュレーションの比類のない機能を提供します。
ただし、動的環境での複数の複雑な形のマイクロボットの協力的な操作を実現するために、従来のマルチトラップOTを制御することは、重要な課題をもたらします。
これに対処するために、OT駆動型の微量体体向けに設計された強化学習(RL)ベースのシミュレーションプラットフォームであるインタラクティブOTジムを紹介します。
当社のプラットフォームは、複雑な物理フィールドシミュレーションをサポートし、触覚フィードバックインターフェイス、RLモジュール、および協同組合生物学的オブジェクト操作タスクでOT駆動型マイクロボットに合わせたコンテキスト認識共有制御戦略を統合します。
この統合により、マニュアルと自律制御の適応的なブレンドが可能になり、人間の入力と自律操作の間のシームレスな遷移が可能になります。
セル操作タスクを使用して、プラットフォームの有効性を評価しました。
実験結果は、共有制御システムがマイクロ操作のパフォーマンスを大幅に改善し、純粋なヒトまたはRLコントロールのみを使用し、100%の成功率を達成するのに比べて、タスクの完了時間を約67%削減することを示しています。
忠実度、インタラクティブ性、低コスト、高速シミュレーション機能により、インタラクティブなOTジムは、高度なインタラクティブなOT駆動型マイクロマニキュレーションシステムと制御アルゴリズムの開発のためのユーザーフレンドリーなトレーニングとテスト環境として機能します。
プロジェクトの詳細については、当社のウェブサイトhttps://sites.google.com/view/otgymをご覧ください

要約(オリジナル)

Optical tweezers (OT) offer unparalleled capabilities for micromanipulation with submicron precision in biomedical applications. However, controlling conventional multi-trap OT to achieve cooperative manipulation of multiple complex-shaped microrobots in dynamic environments poses a significant challenge. To address this, we introduce Interactive OT Gym, a reinforcement learning (RL)-based simulation platform designed for OT-driven microrobotics. Our platform supports complex physical field simulations and integrates haptic feedback interfaces, RL modules, and context-aware shared control strategies tailored for OT-driven microrobot in cooperative biological object manipulation tasks. This integration allows for an adaptive blend of manual and autonomous control, enabling seamless transitions between human input and autonomous operation. We evaluated the effectiveness of our platform using a cell manipulation task. Experimental results show that our shared control system significantly improves micromanipulation performance, reducing task completion time by approximately 67% compared to using pure human or RL control alone and achieving a 100% success rate. With its high fidelity, interactivity, low cost, and high-speed simulation capabilities, Interactive OT Gym serves as a user-friendly training and testing environment for the development of advanced interactive OT-driven micromanipulation systems and control algorithms. For more details on the project, please see our website https://sites.google.com/view/otgym

arxiv情報

著者 Zongcai Tan amd Dandan Zhang
発行日 2025-05-27 05:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Interactive OT Gym: A Reinforcement Learning-Based Interactive Optical tweezer (OT)-Driven Microrobotics Simulation Platform はコメントを受け付けていません

STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation

要約

Off-Policy評価(OPE)は、行動ポリシーから収集されたオフラインデータを使用してターゲットポリシーのパフォーマンスを推定し、環境との直接的な相互作用が費用がかかるか安全でないロボット工学やヘルスケアなどのドメインで重要です。
既存のOPEメソッドは、学習したダイナミクスモデルからの重要度の重み付けまたは複合エラーからの異なる指数関数的な爆発により、高次元の長期の問題には効果がありません。
これらの課題に対処するために、高次元状態およびアクション空間で長老OPEの拡散を除去するモデルベースの生成フレームワークであるStitch-Opeを提案します。
動作データで事前に訓練された拡散モデルから始めて、Stitch-Opeは、ターゲットポリシーのスコア関数を使用して除去プロセスをガイドすることにより、ターゲットポリシーから合成軌跡を生成します。
Stitch-Opeは、OPEにとって有利になる2つの技術的な革新を提案します。(1)ガイダンス中に行動ポリシーのスコアを減算することにより、過剰な正規化を防ぎ、(2)部分的な軌跡をエンドツーエンドをつなぎ合わせることにより長距離軌跡を生成します。
穏やかな仮定の下で、これらの修正により、長期軌道の拡散との分散の指数関数的な減少がもたらされるという理論的保証を提供します。
D4RLおよびOpenaiジムのベンチマークでの実験は、最先端のOPEメソッドと比較して、平均四角誤差、相関、後悔の指標の大幅な改善を示しています。

要約(オリジナル)

Off-policy evaluation (OPE) estimates the performance of a target policy using offline data collected from a behavior policy, and is crucial in domains such as robotics or healthcare where direct interaction with the environment is costly or unsafe. Existing OPE methods are ineffective for high-dimensional, long-horizon problems, due to exponential blow-ups in variance from importance weighting or compounding errors from learned dynamics models. To address these challenges, we propose STITCH-OPE, a model-based generative framework that leverages denoising diffusion for long-horizon OPE in high-dimensional state and action spaces. Starting with a diffusion model pre-trained on the behavior data, STITCH-OPE generates synthetic trajectories from the target policy by guiding the denoising process using the score function of the target policy. STITCH-OPE proposes two technical innovations that make it advantageous for OPE: (1) prevents over-regularization by subtracting the score of the behavior policy during guidance, and (2) generates long-horizon trajectories by stitching partial trajectories together end-to-end. We provide a theoretical guarantee that under mild assumptions, these modifications result in an exponential reduction in variance versus long-horizon trajectory diffusion. Experiments on the D4RL and OpenAI Gym benchmarks show substantial improvement in mean squared error, correlation, and regret metrics compared to state-of-the-art OPE methods.

arxiv情報

著者 Hossein Goli,Michael Gimelfarb,Nathan Samuel de Lara,Haruki Nishimura,Masha Itkina,Florian Shkurti
発行日 2025-05-27 06:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation はコメントを受け付けていません

FM-Planner: Foundation Model Guided Path Planning for Autonomous Drone Navigation

要約

パス計画は、自律的なドローン操作における重要なコンポーネントであり、複雑な環境を安全かつ効率的にナビゲーションを可能にします。
基礎モデル、特に大規模な言語モデル(LLMS)およびビジョン言語モデル(VLM)の最近の進歩は、ロボット工学における認識とインテリジェントな意思決定のための新しい機会を開きました。
ただし、グローバルパス計画における実用的な適用性と有効性は比較的未開拓のままです。
このペーパーでは、Foundation Model Guided Path Planners(FM-Planner)を提案し、ドローンパス計画のための包括的なベンチマーク研究と実用的な検証を提示します。
具体的には、最初に、標準化されたシミュレーションシナリオを使用して、8つの代表的なLLMおよびVLMアプローチを体系的に評価します。
効果的なリアルタイムナビゲーションを有効にするために、セマンティックな推論と視覚的知覚を組み合わせた統合されたLLM-Visionプランナーを設計します。
さらに、複数の構成の下での実際の実験を通じて、提案されたパスプランナーを展開および検証します。
私たちの調査結果は、実際のドローンアプリケーションに基礎モデルを展開し、自律飛行で実用的な実装を提供することの強み、制限、および実現可能性に関する貴重な洞察を提供します。
プロジェクトサイト:https://github.com/ntu-icg/fm-planner。

要約(オリジナル)

Path planning is a critical component in autonomous drone operations, enabling safe and efficient navigation through complex environments. Recent advances in foundation models, particularly large language models (LLMs) and vision-language models (VLMs), have opened new opportunities for enhanced perception and intelligent decision-making in robotics. However, their practical applicability and effectiveness in global path planning remain relatively unexplored. This paper proposes foundation model-guided path planners (FM-Planner) and presents a comprehensive benchmarking study and practical validation for drone path planning. Specifically, we first systematically evaluate eight representative LLM and VLM approaches using standardized simulation scenarios. To enable effective real-time navigation, we then design an integrated LLM-Vision planner that combines semantic reasoning with visual perception. Furthermore, we deploy and validate the proposed path planner through real-world experiments under multiple configurations. Our findings provide valuable insights into the strengths, limitations, and feasibility of deploying foundation models in real-world drone applications and providing practical implementations in autonomous flight. Project site: https://github.com/NTU-ICG/FM-Planner.

arxiv情報

著者 Jiaping Xiao,Cheng Wen Tsao,Yuhang Zhang,Mir Feroskhan
発行日 2025-05-27 06:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | FM-Planner: Foundation Model Guided Path Planning for Autonomous Drone Navigation はコメントを受け付けていません

Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt

要約

最近のロボット学習方法は、一般に、テレオ操作で収集された大規模なロボットデータセットからの模倣学習に依存しています。
新しいタスクに直面する場合、そのような方法は一般に、一連の新しいテレオ操作データを収集し、ポリシーを微調整する必要があります。
さらに、テレオ操作データ収集パイプラインも退屈で高価です。
代わりに、人間は他の人がするのを見るだけで新しいタスクを効率的に学ぶことができます。
この論文では、一般化可能なロボットポリシーを学ぶために人間のデモを利用する新しい2段階のフレームワークを紹介します。
このようなポリシーは、人間のデモビデオをプロンプトとして直接撮影し、新しいテレオ操作データなしで新しいタスクを実行し、まったく微調整することができます。
最初の段階では、相互予測を使用して人間とロボットのデモンストレーションビデオデータの共同表現をキャプチャするビデオ生成モデルをトレーニングします。
第2段階では、学習した表現を、新しいプロトタイプのコントラスト損失を使用して、人間とロボットの間の共有アクション空間と融合します。
実世界の器用な操作タスクに関する経験的評価は、提案された方法の有効性と一般化能力を示しています。

要約(オリジナル)

Recent robot learning methods commonly rely on imitation learning from massive robotic dataset collected with teleoperation. When facing a new task, such methods generally require collecting a set of new teleoperation data and finetuning the policy. Furthermore, the teleoperation data collection pipeline is also tedious and expensive. Instead, human is able to efficiently learn new tasks by just watching others do. In this paper, we introduce a novel two-stage framework that utilizes human demonstrations to learn a generalizable robot policy. Such policy can directly take human demonstration video as a prompt and perform new tasks without any new teleoperation data and model finetuning at all. In the first stage, we train video generation model that captures a joint representation for both the human and robot demonstration video data using cross-prediction. In the second stage, we fuse the learned representation with a shared action space between human and robot using a novel prototypical contrastive loss. Empirical evaluations on real-world dexterous manipulation tasks show the effectiveness and generalization capabilities of our proposed method.

arxiv情報

著者 Xiang Zhu,Yichen Liu,Hezhong Li,Jianyu Chen
発行日 2025-05-27 06:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt はコメントを受け付けていません

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

要約

このペーパーでは、四足動物言語アクション(quar-VLA)タスクにマルチモーダルラージランゲージモデル(MLLM)の展開に関連する固有の推論潜在性の課題に対処します。
私たちの調査は、従来のパラメーター削減手法が最終的に、アクション命令調整段階で言語基盤モデルのパフォーマンスを損ない、この目的には不適切であることを明らかにしています。
言語基礎モデルのパフォーマンスを低下させることなく推論効率を高めるように設計された、Quart-Onlineと呼ばれる、新しいレイテンシフリーのクアドゥルアップMLLMモデルを導入します。
アクションチャンク離散化(ACD)を組み込むことにより、元のアクション表現スペースを圧縮し、重要な情報を保存しながら、より小さなディスクリート代表ベクトルのセットに連続的なアクション値をマッピングします。
その後、MLLMを微調整して、ビジョン、言語、および圧縮アクションを統合されたセマンティックスペースに統合します。
実験結果は、Quart-Onlineが既存のMLLMシステムと連携して動作し、基礎となるコントローラー周波数と同期してリアルタイムの推論を達成し、さまざまなタスクの成功率を65%上昇させることを示しています。
プロジェクトページはhttps://quart-online.github.ioです。

要約(オリジナル)

This paper addresses the inherent inference latency challenges associated with deploying multimodal large language models (MLLM) in quadruped vision-language-action (QUAR-VLA) tasks. Our investigation reveals that conventional parameter reduction techniques ultimately impair the performance of the language foundation model during the action instruction tuning phase, making them unsuitable for this purpose. We introduce a novel latency-free quadruped MLLM model, dubbed QUART-Online, designed to enhance inference efficiency without degrading the performance of the language foundation model. By incorporating Action Chunk Discretization (ACD), we compress the original action representation space, mapping continuous action values onto a smaller set of discrete representative vectors while preserving critical information. Subsequently, we fine-tune the MLLM to integrate vision, language, and compressed actions into a unified semantic space. Experimental results demonstrate that QUART-Online operates in tandem with the existing MLLM system, achieving real-time inference in sync with the underlying controller frequency, significantly boosting the success rate across various tasks by 65%. Our project page is https://quart-online.github.io.

arxiv情報

著者 Xinyang Tong,Pengxiang Ding,Yiguo Fan,Donglin Wang,Wenjie Zhang,Can Cui,Mingyang Sun,Han Zhao,Hongyin Zhang,Yonghao Dang,Siteng Huang,Shangke Lyu
発行日 2025-05-27 07:05:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning はコメントを受け付けていません

Spatial RoboGrasp: Generalized Robotic Grasping Control Policy

要約

主に空間的知覚の制限のため、多様な環境で一般化可能で正確なロボット操作を達成することは重要な課題のままです。
以前の模倣学習アプローチは進歩していますが、生のRGB入力と手作りの機能への依存は、しばしばさまざまな照明、閉塞、およびオブジェクト条件の下で過剰適合と貧弱な3D推論につながります。
この論文では、信頼できる把握予測で堅牢なマルチモーダル認識を結びつける統一されたフレームワークを提案します。
私たちのアーキテクチャは、ドメインランダム化された増強、単眼の深さ推定、および下流のアクションプランニングのための単一の空間表現に深さを認識した6-dofグラッププロンプトを融合します。
このエンコーディングと高レベルのタスクプロンプトを条件に、拡散ベースのポリシーは正確なアクションシーケンスをもたらし、環境変動の下で成功を把握する最大40%の改善と45%のタスク成功率を達成します。
これらの結果は、拡散ベースの模倣学習と組み合わせた空間的に接地された知覚が、汎用ロボットグラッシングのためのスケーラブルで堅牢なソリューションを提供することを示しています。

要約(オリジナル)

Achieving generalizable and precise robotic manipulation across diverse environments remains a critical challenge, largely due to limitations in spatial perception. While prior imitation-learning approaches have made progress, their reliance on raw RGB inputs and handcrafted features often leads to overfitting and poor 3D reasoning under varied lighting, occlusion, and object conditions. In this paper, we propose a unified framework that couples robust multimodal perception with reliable grasp prediction. Our architecture fuses domain-randomized augmentation, monocular depth estimation, and a depth-aware 6-DoF Grasp Prompt into a single spatial representation for downstream action planning. Conditioned on this encoding and a high-level task prompt, our diffusion-based policy yields precise action sequences, achieving up to 40% improvement in grasp success and 45% higher task success rates under environmental variation. These results demonstrate that spatially grounded perception, paired with diffusion-based imitation learning, offers a scalable and robust solution for general-purpose robotic grasping.

arxiv情報

著者 Yiqi Huang,Travis Davies,Jiahuan Yan,Jiankai Sun,Xiang Chen,Luhui Hu
発行日 2025-05-27 07:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Spatial RoboGrasp: Generalized Robotic Grasping Control Policy はコメントを受け付けていません

Toward Unified Practices in Trajectory Prediction Research on Bird’s-Eye-View Datasets

要約

高品質のデータセットの可用性は、自律車両の動作予測アルゴリズムの開発に不可欠です。
このペーパーでは、比較分析を簡素化するためのモーション予測研究のために特定のデータセットの使用を標準化する必要性を強調し、これを達成するために一連のツールとプラクティスを提案します。
豊富な経験と現在の文献の包括的なレビューに基づいて、軌道予測の問題に取り組んでいる研究者向けに設計されたオープンソースのツールボックスの形で、前処理、視覚化、および評価に関する提案をまとめたものです。
必要な前処理手順と評価メトリックの明確な仕様は、開発の取り組みを緩和し、さまざまな研究にわたる結果の比較を促進することを目的としています。
ツールボックスは、https://github.com/westny/dronalizeで入手できます。

要約(オリジナル)

The availability of high-quality datasets is crucial for the development of behavior prediction algorithms in autonomous vehicles. This paper highlights the need to standardize the use of certain datasets for motion forecasting research to simplify comparative analysis and proposes a set of tools and practices to achieve this. Drawing on extensive experience and a comprehensive review of current literature, we summarize our proposals for preprocessing, visualization, and evaluation in the form of an open-sourced toolbox designed for researchers working on trajectory prediction problems. The clear specification of necessary preprocessing steps and evaluation metrics is intended to alleviate development efforts and facilitate the comparison of results across different studies. The toolbox is available at: https://github.com/westny/dronalize.

arxiv情報

著者 Theodor Westny,Björn Olofsson,Erik Frisk
発行日 2025-05-27 07:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Toward Unified Practices in Trajectory Prediction Research on Bird’s-Eye-View Datasets はコメントを受け付けていません

GET: Goal-directed Exploration and Targeting for Large-Scale Unknown Environments

要約

大規模で構造化されていない環境でのオブジェクト検索は、特に屋外の自律探査などの動的または広大な設定で、ロボット工学の根本的な課題のままです。
このタスクには、堅牢な空間的推論と、以前の経験を活用する能力が必要です。
大規模な言語モデル(LLM)は強力なセマンティック機能を提供しますが、具体化されたコンテキストでの適用は、空間推論の根拠とメモリ統合と決定の一貫性のための不十分なメカニズムによって制限されます。
そのコアには、ロールベースのフィードバックループを介してリアルタイムの意思決定を促進し、タスク固有の基準と外部メモリを統合する推論モジュールです。
繰り返しのタスクについては、ガウス混合モデルに基づいて確率的タスクマップを維持し、環境が進化するにつれてオブジェクトロケーション前の継続的な更新を可能にします。実世界で実施される実験は、複数のLLMとタスクの設定にわたって検索効率と堅牢性を改善することを示しています。
これらの結果は、構造化されたLLM統合が、複雑な環境での具体化された意思決定に対するスケーラブルで一般化可能なアプローチを提供することを示唆しています。

要約(オリジナル)

Object search in large-scale, unstructured environments remains a fundamental challenge in robotics, particularly in dynamic or expansive settings such as outdoor autonomous exploration. This task requires robust spatial reasoning and the ability to leverage prior experiences. While Large Language Models (LLMs) offer strong semantic capabilities, their application in embodied contexts is limited by a grounding gap in spatial reasoning and insufficient mechanisms for memory integration and decision consistency.To address these challenges, we propose GET (Goal-directed Exploration and Targeting), a framework that enhances object search by combining LLM-based reasoning with experience-guided exploration. At its core is DoUT (Diagram of Unified Thought), a reasoning module that facilitates real-time decision-making through a role-based feedback loop, integrating task-specific criteria and external memory. For repeated tasks, GET maintains a probabilistic task map based on a Gaussian Mixture Model, allowing for continual updates to object-location priors as environments evolve.Experiments conducted in real-world, large-scale environments demonstrate that GET improves search efficiency and robustness across multiple LLMs and task settings, significantly outperforming heuristic and LLM-only baselines. These results suggest that structured LLM integration provides a scalable and generalizable approach to embodied decision-making in complex environments.

arxiv情報

著者 Lanxiang Zheng,Ruidong Mei,Mingxin Wei,Hao Ren,Hui Cheng
発行日 2025-05-27 07:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GET: Goal-directed Exploration and Targeting for Large-Scale Unknown Environments はコメントを受け付けていません

Learning Unified Force and Position Control for Legged Loco-Manipulation

要約

ロボット局所操作タスクには、多くの場合、環境との接触が豊富な相互作用が含まれ、接触力とロボットの位置の共同モデリングが必要です。
ただし、最近の視覚運動ポリシーは、多くの場合、学習ポジションまたはフォースコントロールのみに焦点を当てており、共同学習を見下ろしています。
この作業では、力センサーに依存せずに学習した力と位置の制御を共同でモデル化する脚のロボットの最初の統一ポリシーを提案します。
外部外障害の力とともに位置と力のコマンドの多様な組み合わせをシミュレートすることにより、補強学習を使用して、歴史的ロボット状態からの力を推定し、位置と速度の調整を通じてそれらを補償するポリシーを学習します。
このポリシーにより、位置追跡、力の適用、力追跡、準拠の相互作用など、さまざまな力と位置の入力の下で幅広い操作行動が可能になります。
さらに、学習したポリシーは、強制推定モジュールを介して重要な連絡先情報を組み込むことにより、軌道ベースの模倣学習パイプラインを強化し、ポジションコントロールポリシーと比較して4つの困難な接触リッチ操作タスクで約39.5%高い成功率を達成することを実証します。
四角形マニピュレーターとヒューマノイドロボットの両方に関する広範な実験は、多様なシナリオ全体で提案されたポリシーの汎用性と堅牢性を検証します。

要約(オリジナル)

Robotic loco-manipulation tasks often involve contact-rich interactions with the environment, requiring the joint modeling of contact force and robot position. However, recent visuomotor policies often focus solely on learning position or force control, overlooking their co-learning. In this work, we propose the first unified policy for legged robots that jointly models force and position control learned without reliance on force sensors. By simulating diverse combinations of position and force commands alongside external disturbance forces, we use reinforcement learning to learn a policy that estimates forces from historical robot states and compensates for them through position and velocity adjustments. This policy enables a wide range of manipulation behaviors under varying force and position inputs, including position tracking, force application, force tracking, and compliant interactions. Furthermore, we demonstrate that the learned policy enhances trajectory-based imitation learning pipelines by incorporating essential contact information through its force estimation module, achieving approximately 39.5% higher success rates across four challenging contact-rich manipulation tasks compared to position-control policies. Extensive experiments on both a quadrupedal manipulator and a humanoid robot validate the versatility and robustness of the proposed policy across diverse scenarios.

arxiv情報

著者 Peiyuan Zhi,Peiyang Li,Jianqin Yin,Baoxiong Jia,Siyuan Huang
発行日 2025-05-27 07:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Unified Force and Position Control for Legged Loco-Manipulation はコメントを受け付けていません