Rethinking Latent Representations in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation

要約

動作クローニング(BC)は、ロボット操作において広く採用されている視覚模倣学習方法です。
現在のBCアプローチは、大規模なデータセットを活用し、追加の視覚的およびテキストモダリティを組み込んで、より多様な情報をキャプチャすることにより、一般化を強化することがよくあります。
ただし、これらの方法は、学習した表現に冗長な情報が含まれているかどうかを見落としており、学習プロセスを導くための強固な理論的基盤がありません。
これらの制限に対処するために、情報理論的視点を採用し、相互情報を導入して、潜在的な表現の冗長性を定量化し、軽減します。
これに基づいて、情報ボトルネック(IB)原則をBCに組み込みます。これにより、タスク関連の機能を維持しながら、無関係な情報を圧縮するための構造化されたフレームワークを提供することにより、冗長性を削減するという考えが拡張されます。
この作業は、IBの一般化可能性をBCに拡張しながら、さまざまな方法、バックボーン、および実験設定にわたる潜在的な表現における冗長性に関する最初の包括的な研究を提示します。
皮質ベンチとリベロのベンチマークの広範な実験と分析は、IBによる大幅なパフォーマンスの改善を示しており、入力データの冗長性を減らし、より実用的なアプリケーションの実用的な価値を強調することの重要性を強調しています。
プロジェクトページ:https://baishuanghao.github.io/bc-ib.github.io。

要約(オリジナル)

Behavior Cloning (BC) is a widely adopted visual imitation learning method in robot manipulation. Current BC approaches often enhance generalization by leveraging large datasets and incorporating additional visual and textual modalities to capture more diverse information. However, these methods overlook whether the learned representations contain redundant information and lack a solid theoretical foundation to guide the learning process. To address these limitations, we adopt an information-theoretic perspective and introduce mutual information to quantify and mitigate redundancy in latent representations. Building on this, we incorporate the Information Bottleneck (IB) principle into BC, which extends the idea of reducing redundancy by providing a structured framework for compressing irrelevant information while preserving task-relevant features. This work presents the first comprehensive study on redundancy in latent representations across various methods, backbones, and experimental settings, while extending the generalizability of the IB to BC. Extensive experiments and analyses on the CortexBench and LIBERO benchmarks demonstrate significant performance improvements with IB, underscoring the importance of reducing input data redundancy and highlighting its practical value for more practical applications. Project Page: https://baishuanghao.github.io/BC-IB.github.io.

arxiv情報

著者 Shuanghai Bai,Wanqi Zhou,Pengxiang Ding,Wei Zhao,Donglin Wang,Badong Chen
発行日 2025-02-05 03:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Rethinking Latent Representations in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation はコメントを受け付けていません

Dexterous Safe Control for Humanoids in Cluttered Environments via Projected Safe Set Algorithm

要約

パフォーマンスを損なうことなく、実際のアプリケーションでヒューマノイドロボットの安全性を確保することが重要です。
この論文では、乱雑な環境での外部と自己衝突の両方を避けるための四肢レベルの幾何学的制約を特徴とする器用な安全性の問題を検討します。
Sprase環境で単純化された境界幾何学を持つ安全性と比較して、器用な安全性は、安全なロボット制御を解決する際に実行不可能な制約セットにつながる多くの制約を生成します。
この問題に対処するために、古典的な安全な制御アルゴリズムのマルチコンストレントケースへの拡張である予測される安全なセットアルゴリズム(P-SSA)を提案します。
P-SSAは、対立する制約を原則的に緩和し、安全違反を最小限に抑えて実行可能なロボット制御を保証します。
シミュレーションでのアプローチと、複雑な衝突回避タスクを実行する実際のUnitree G1ヒューマノイドロボットで確認します。
結果は、P-SSAが最小限の安全違反で挑戦的な状況で堅牢に動作し、パラメーターチューニングがゼロのさまざまなタスクに直接一般化できることを示しています。

要約(オリジナル)

It is critical to ensure safety for humanoid robots in real-world applications without compromising performance. In this paper, we consider the problem of dexterous safety, featuring limb-level geometry constraints for avoiding both external and self-collisions in cluttered environments. Compared to safety with simplified bounding geometries in sprase environments, dexterous safety produces numerous constraints which often lead to infeasible constraint sets when solving for safe robot control. To address this issue, we propose Projected Safe Set Algorithm (p-SSA), an extension of classical safe control algorithms to multi-constraint cases. p-SSA relaxes conflicting constraints in a principled manner, minimizing safety violations to guarantee feasible robot control. We verify our approach in simulation and on a real Unitree G1 humanoid robot performing complex collision avoidance tasks. Results show that p-SSA enables the humanoid to operate robustly in challenging situations with minimal safety violations and directly generalizes to various tasks with zero parameter tuning.

arxiv情報

著者 Rui Chen,Yifan Sun,Changliu Liu
発行日 2025-02-05 03:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dexterous Safe Control for Humanoids in Cluttered Environments via Projected Safe Set Algorithm はコメントを受け付けていません

A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot Grasping

要約

言語誘導ロボットの把握タスクでは、ロボットエージェントが視覚入力と言語入力の両方からマルチモーダル情報を統合して、ターゲット駆動型の把握のアクションを予測する必要があります。
マルチモーダル大手言語モデル(MLLM)を利用する最近のアプローチは有望な結果を示していますが、その広範な計算とデータの要求は、ローカルの展開とカスタマイズの実現可能性を制限しています。
これに対処するために、3つの言語誘導オブジェクトの接地と把握タスクのために設計された新しいクリップベースのマルチモーダルパラメーター効率の高いチューニング(PET)フレームワークを提案します。
)、および(3)把持アフォーダンス(RGA)を参照します。
私たちのアプローチでは、2つの重要な革新を紹介します。ピクセルレベルの言語理解のマルチモーダル入力を整列させる双方向ビジョン言語アダプターと、幾何学的なキューを組み込んでロボットの把握予測を促進する深度融合分岐です。
実験結果は、既存のクリップベースのフルモデルチューニングまたはPETアプローチと比較して、RESオブジェクトの接地タスクで優れた性能を示しています。
RGSおよびRGAタスクでは、モデルは単純な言語の説明に基づいてオブジェクト属性を効果的に解釈するだけでなく、ワークスペースに存在する複数の同一のオブジェクトなど、複雑な空間的推論シナリオを理解するための強力な可能性を示しています。

要約(オリジナル)

The language-guided robot grasping task requires a robot agent to integrate multimodal information from both visual and linguistic inputs to predict actions for target-driven grasping. While recent approaches utilizing Multimodal Large Language Models (MLLMs) have shown promising results, their extensive computation and data demands limit the feasibility of local deployment and customization. To address this, we propose a novel CLIP-based multimodal parameter-efficient tuning (PET) framework designed for three language-guided object grounding and grasping tasks: (1) Referring Expression Segmentation (RES), (2) Referring Grasp Synthesis (RGS), and (3) Referring Grasp Affordance (RGA). Our approach introduces two key innovations: a bi-directional vision-language adapter that aligns multimodal inputs for pixel-level language understanding and a depth fusion branch that incorporates geometric cues to facilitate robot grasping predictions. Experiment results demonstrate superior performance in the RES object grounding task compared with existing CLIP-based full-model tuning or PET approaches. In the RGS and RGA tasks, our model not only effectively interprets object attributes based on simple language descriptions but also shows strong potential for comprehending complex spatial reasoning scenarios, such as multiple identical objects present in the workspace.

arxiv情報

著者 Houjian Yu,Mingen Li,Alireza Rezazadeh,Yang Yang,Changhyun Choi
発行日 2025-02-05 04:04:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot Grasping はコメントを受け付けていません

Gait-Net-augmented Implicit Kino-dynamic MPC for Dynamic Variable-frequency Humanoid Locomotion over Discrete Terrains

要約

ヒューマノイド運動のための現在の最適化ベースの制御手法は、固定時間の離散化に依存しているため、動的な歩行歩行に段階的な期間と配置を同時に適応させるのに苦労します。
この作業では、自然な可変周波数運動のためのステップの位置、ステップ持続時間、および接触力を同時に最適化するために、歩行ネットの暗黙のキノダイナミックモデル予測制御(MPC)を提案します。
提案された方法には、反復的な二次プログラムによって多次制に制約された変数を解決するために、歩行ネット維持連続凸MPCアルゴリズムが組み込まれています。
そのコアでは、軽量の歩行周波数ネットワーク(GAIT-NET)が、可変MPCサンプリング時間の観点から優先ステップ持続時間を決定し、ステップ持続時間の最適化をパラメーターレベルに簡素化します。
さらに、ローカルソリューションを組み込むことにより、各シーケンシャルイテレーション内の空間参照軌道を強化および更新し、参照軌跡の設計に運動学的制約の投影を可能にします。
提案されたアルゴリズムを高忠実度シミュレーションと小型のヒューマノイドハードウェアで検証し、地形データの1段階のプレビューのみで、可変頻度と3-Dの離散地形の移動の能力を実証します。

要約(オリジナル)

Current optimization-based control techniques for humanoid locomotion struggle to adapt step duration and placement simultaneously in dynamic walking gaits due to their reliance on fixed-time discretization, which limits responsiveness to terrain conditions and results in suboptimal performance in challenging environments. In this work, we propose a Gait-Net-augmented implicit kino-dynamic model-predictive control (MPC) to simultaneously optimize step location, step duration, and contact forces for natural variable-frequency locomotion. The proposed method incorporates a Gait-Net-augmented Sequential Convex MPC algorithm to solve multi-linearly constrained variables by iterative quadratic programs. At its core, a lightweight Gait-frequency Network (Gait-Net) determines the preferred step duration in terms of variable MPC sampling times, simplifying step duration optimization to the parameter level. Additionally, it enhances and updates the spatial reference trajectory within each sequential iteration by incorporating local solutions, allowing the projection of kinematic constraints to the design of reference trajectories. We validate the proposed algorithm in high-fidelity simulations and on small-size humanoid hardware, demonstrating its capability for variable-frequency and 3-D discrete terrain locomotion with only a one-step preview of terrain data.

arxiv情報

著者 Junheng Li,Ziwei Duan,Junchao Ma,Quan Nguyen
発行日 2025-02-05 06:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Gait-Net-augmented Implicit Kino-dynamic MPC for Dynamic Variable-frequency Humanoid Locomotion over Discrete Terrains はコメントを受け付けていません

BaB-ND: Long-Horizon Motion Planning with Branch-and-Bound and Neural Dynamics

要約

観察データから学んだニューラルネットワークベースのダイナミクスモデルは、ロボット操作タスクのシーンダイナミクスの強力な予測機能を示しています。
ただし、それらの固有の非線形性は、効果的な計画のための重要な課題を提示します。
多くの場合、広範なサンプリングまたはローカルグラジエントの降下に依存している現在の計画方法は、複雑な接触イベントを含む長老のモーション計画タスクと闘っています。
このホワイトペーパーでは、ニューラルダイナミクスモデルよりも軌跡最適化を必要とする操作タスクにおけるモーション計画のためのGPUアクセラレーションの枝とバインド(BAB)フレームワークを紹介します。
私たちのアプローチは、検索空間をサブドメインに分割するために特殊な分岐ヒューリスティックを採用しており、最先端のニューラルネットワーク検証剤アルファベータクラウンに触発された修正されたバウンド伝播法を適用して、これらのサブドメイン内の客観的境界を効率的に推定する

分岐プロセスは計画を効果的にガイドし、境界プロセスは検索スペースを戦略的に削減します。
私たちのフレームワークは、優れた計画パフォーマンスを達成し、高品質の状態アクション軌跡を生成し、障害物、オブジェクトの並べ替え、シミュレーションおよび実世界の両方のルーティングでプッシュする非充実した平面的な平面などの挑戦的な接触豊富な操作タスクで既存の方法を上回ります
設定。
さらに、当社のフレームワークは、単純な多層パーセプトロンから高度なグラフニューラルダイナミクスモデルに至るまで、さまざまなモデルサイズで効率的にスケールに至るまで、さまざまなニューラルネットワークアーキテクチャをサポートしています。

要約(オリジナル)

Neural-network-based dynamics models learned from observational data have shown strong predictive capabilities for scene dynamics in robotic manipulation tasks. However, their inherent non-linearity presents significant challenges for effective planning. Current planning methods, often dependent on extensive sampling or local gradient descent, struggle with long-horizon motion planning tasks involving complex contact events. In this paper, we present a GPU-accelerated branch-and-bound (BaB) framework for motion planning in manipulation tasks that require trajectory optimization over neural dynamics models. Our approach employs a specialized branching heuristics to divide the search space into subdomains, and applies a modified bound propagation method, inspired by the state-of-the-art neural network verifier alpha-beta-CROWN, to efficiently estimate objective bounds within these subdomains. The branching process guides planning effectively, while the bounding process strategically reduces the search space. Our framework achieves superior planning performance, generating high-quality state-action trajectories and surpassing existing methods in challenging, contact-rich manipulation tasks such as non-prehensile planar pushing with obstacles, object sorting, and rope routing in both simulated and real-world settings. Furthermore, our framework supports various neural network architectures, ranging from simple multilayer perceptrons to advanced graph neural dynamics models, and scales efficiently with different model sizes.

arxiv情報

著者 Keyi Shen,Jiangwei Yu,Jose Barreiros,Huan Zhang,Yunzhu Li
発行日 2025-02-05 07:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | BaB-ND: Long-Horizon Motion Planning with Branch-and-Bound and Neural Dynamics はコメントを受け付けていません

Demonstrating a Control Framework for Physical Human-Robot Interaction Toward Industrial Applications

要約

人間 – ロボット相互作用(PHRI)は、人間中心のアプローチに焦点を当てた業界5.0を実装するために重要です。
ただし、産業グレードのパフォーマンスに対するPHRIの実際的な整合性を調査する研究はほとんどありません。
このペーパーでは、トルクベースの制御モード、コンプライアンス制御、ヌル空間コンプライアンス、デュアルコンプライアンス、すべて静的および動的シナリオを組み込むことにより、このギャップを埋めるために設計された汎用性のある制御フレームワークを紹介します。
2次二次プログラミング(QP)の定式化のおかげで、厳格な運動学と衝突の制約が安全機能としてシステムに統合され、加重階層は単一性 – ロビータスク追跡パフォーマンスを保証します。
このフレームワークは、ボタフォース/トルクセンサーを備えたKinova Gen3共同ロボット(コボット)に実装されています。
DualShock 4ゲームコントローラーがロボットのエンドエフェクターに接続されており、フレームワークの機能を実証します。
このセットアップにより、モード間のシームレスな動的スイッチング、および位置とトルクコントロールの間の遷移や、デフォルトのものよりも堅牢なカスタム開発の低レベルトルクコントローラーの選択など、パラメーターのリアルタイム調整が可能になります。
ロボット制御ソフトウェアMC_RTCは、研究と産業の展開の両方の再現性を確保するために、産業環境の堅牢なPHRI制御システムとしての可能性を示す産業環境のパフォーマンスと再現性を示しています。

要約(オリジナル)

Human-Robot Interaction (pHRI) is critical for implementing Industry 5.0 which focuses on human-centric approaches. However, few studies explore the practical alignment of pHRI to industrial grade performance. This paper introduces a versatile control framework designed to bridge this gap by incorporating the torque-based control modes: compliance control, null-space compliance, dual compliance, all in static and dynamic scenarios. Thanks to our second-order Quadratic Programming (QP) formulation, strict kinematic and collision constraints are integrated into the system as safety features, and a weighted hierarchy guarantees singularity-robust task tracking performance. The framework is implemented on a Kinova Gen3 collaborative robot (cobot) equipped with a Bota force/torque sensor. A DualShock 4 game controller is attached at the robot’s end-effector to demonstrate the framework’s capabilities. This setup enables seamless dynamic switching between the modes, and real-time adjustment of parameters, such as transitioning between position and torque control or selecting a more robust custom-developed low-level torque controller over the default one.Built on the open-source robotic control software mc_rtc, to ensure reproducibility for both research and industrial deployment, this framework demonstrates industrial-grade performance and repeatability, showcasing its potential as a robust pHRI control system for industrial environments.

arxiv情報

著者 Bastien Muraccioli,Celerier Mathieu,Benallegue Mehdi,Venture Gentiane
発行日 2025-02-05 08:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Demonstrating a Control Framework for Physical Human-Robot Interaction Toward Industrial Applications はコメントを受け付けていません

Label Anything: An Interpretable, High-Fidelity and Prompt-Free Annotator

要約

学習ベースのストリートシーン自律運転(AD)におけるセマンティック理解は最近大幅に進歩していますが、ADモデルのパフォーマンスは、注釈付きトレーニングデータの量と品質に大きく依存しています。
ただし、従来のマニュアルラベルには、トレーニングの堅牢なモデルをトレーニングするために膨大な量のデータを注入するための高コストが含まれます。
この手動ラベルのコストを緩和するために、ラベルのモデル(LAMとして示される)を提案し、解釈可能で高忠実で、迅速なデータアノテーターとして機能します。
具体的には、まず、潜在的な特徴を抽出するために、前処理された視覚変圧器(VIT)を組み込みます。
VITに加えて、セマンティッククラスアダプター(SCA)と最適化指向の展開アルゴリズム(OptOU)を提案します。
SCAは、後続の自動注釈の基礎を統合するために、VIT抽出機能を融合することが提案されています。
OptOUは複数のカスケード層で構成されており、各レイヤーには、学習ベースのブラックボックスの性質ではなく解釈可能であると機能するOptouは、可能な限り密接に出力を整列させるための最適化定式化を含んでいます。
さらに、トレーニングSCAとOptOUは、学習可能なパラメーターが少ないため、1つの事前に注文されたRGBシード画像のみが必要です。
広範な実験は、提案されたLAMが複数の実際のデータセット(つまり、CAMVID、Cityscapes、Apolloscapes)およびカーラシミュレーションデータセットの高忠実度の注釈(MIOUでほぼ100%)を生成できることを明確に示しています。

要約(オリジナル)

Learning-based street scene semantic understanding in autonomous driving (AD) has advanced significantly recently, but the performance of the AD model is heavily dependent on the quantity and quality of the annotated training data. However, traditional manual labeling involves high cost to annotate the vast amount of required data for training robust model. To mitigate this cost of manual labeling, we propose a Label Anything Model (denoted as LAM), serving as an interpretable, high-fidelity, and prompt-free data annotator. Specifically, we firstly incorporate a pretrained Vision Transformer (ViT) to extract the latent features. On top of ViT, we propose a semantic class adapter (SCA) and an optimization-oriented unrolling algorithm (OptOU), both with a quite small number of trainable parameters. SCA is proposed to fuse ViT-extracted features to consolidate the basis of the subsequent automatic annotation. OptOU consists of multiple cascading layers and each layer contains an optimization formulation to align its output with the ground truth as closely as possible, though which OptOU acts as being interpretable rather than learning-based blackbox nature. In addition, training SCA and OptOU requires only a single pre-annotated RGB seed image, owing to their small volume of learnable parameters. Extensive experiments clearly demonstrate that the proposed LAM can generate high-fidelity annotations (almost 100% in mIoU) for multiple real-world datasets (i.e., Camvid, Cityscapes, and Apolloscapes) and CARLA simulation dataset.

arxiv情報

著者 Wei-Bin Kou,Guangxu Zhu,Rongguang Ye,Shuai Wang,Ming Tang,Yik-Chung Wu
発行日 2025-02-05 08:14:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Label Anything: An Interpretable, High-Fidelity and Prompt-Free Annotator はコメントを受け付けていません

Learning Efficient Flocking Control based on Gibbs Random Fields

要約

多様なアプリケーションのマルチロボットシステムには群がった制御が不可欠ですが、混雑した環境で効率的な群れを達成することは、計算負担、パフォーマンスの最適性、および運動の安全性に関する課題をもたらします。
このペーパーでは、Gibbs Random Fields(GRF)上に構築されたマルチエージェント強化学習(MARL)フレームワークを通じて、これらの課題に対処します。
GRFSを使用すると、マルチロボットシステムは、共同確率分布に準拠した一連のランダム変数によって表されるため、報酬設計の群れに関する新鮮な視点が提供されます。
ロボット量に関するMARLのスケーラビリティを強化する分散型トレーニングと実行メカニズムは、GRFベースのクレジット割り当て方法を使用して実現されます。
アクション注意モジュールが導入され、隣接するロボットの動きの意図を暗黙的に予測し、その結果、MARLの潜在的な非定常問題を軽減します。
提案されたフレームワークは、シミュレーションおよび実験の最先端のソリューションとの徹底的な比較を通じて実証されているように、成功率が約99ドル\%$で、挑戦的な環境でマルチロボットシステムの効率的な分散制御ポリシーを学習することができます。
アブレーション研究も実行され、さまざまなフレームワークモジュールの効率を検証します。

要約(オリジナル)

Flocking control is essential for multi-robot systems in diverse applications, yet achieving efficient flocking in congested environments poses challenges regarding computation burdens, performance optimality, and motion safety. This paper addresses these challenges through a multi-agent reinforcement learning (MARL) framework built on Gibbs Random Fields (GRFs). With GRFs, a multi-robot system is represented by a set of random variables conforming to a joint probability distribution, thus offering a fresh perspective on flocking reward design. A decentralized training and execution mechanism, which enhances the scalability of MARL concerning robot quantity, is realized using a GRF-based credit assignment method. An action attention module is introduced to implicitly anticipate the motion intentions of neighboring robots, consequently mitigating potential non-stationarity issues in MARL. The proposed framework enables learning an efficient distributed control policy for multi-robot systems in challenging environments with success rate around $99\%$, as demonstrated through thorough comparisons with state-of-the-art solutions in simulations and experiments. Ablation studies are also performed to validate the efficiency of different framework modules.

arxiv情報

著者 Dengyu Zhang,Chenghao,Feng Xue,Qingrui Zhang
発行日 2025-02-05 08:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Learning Efficient Flocking Control based on Gibbs Random Fields はコメントを受け付けていません

An Atomic Skill Library Construction Method for Data-Efficient Embodied Manipulation

要約

具体化された操作は、具体化された人工知能の領域における基本的な能力です。
現在の具体化された操作モデルは、特定の設定で特定の一般化を示していますが、実際のシナリオの複雑さと多様性のために、新しい環境とタスクで苦労しています。
従来のエンドツーエンドのデータ収集とトレーニングマナーは、重要なデータ需要につながります。
エンドツーエンドのタスクをアトミックスキルに分解すると、データ要件を削減し、タスクの成功率が向上します。
ただし、既存の方法は、動的に更新できない事前定義されたスキルセットによって制限されます。
この問題に対処するために、アトミックスキルライブラリを構築するための3輪駆動型の方法を紹介します。
Vision-Language-Planning(VLP)を使用して、タスクをサブタスクに分割します。
次に、サブタスクを抽象化することにより、原子スキルの定義が形成されます。
最後に、原子スキルライブラリは、データ収集とビジョン言語アクション(VLA)微調整を介して構築されます。
アトミックスキルライブラリが3輪更新戦略で動的に拡大すると、カバーできるタスクの範囲は自然に成長します。
このようにして、私たちの方法は、エンドツーエンドのタスクからアトミックスキルに焦点を移し、高性能を維持しながらデータコストを大幅に削減し、新しいタスクに効率的な適応を可能にします。
現実世界の設定での広範な実験は、私たちのアプローチの有効性と効率性を示しています。

要約(オリジナル)

Embodied manipulation is a fundamental ability in the realm of embodied artificial intelligence. Although current embodied manipulation models show certain generalizations in specific settings, they struggle in new environments and tasks due to the complexity and diversity of real-world scenarios. The traditional end-to-end data collection and training manner leads to significant data demands. Decomposing end-to-end tasks into atomic skills helps reduce data requirements and improves the task success rate. However, existing methods are limited by predefined skill sets that cannot be dynamically updated. To address the issue, we introduce a three-wheeled data-driven method to build an atomic skill library. We divide tasks into subtasks using the Vision-Language-Planning (VLP). Then, atomic skill definitions are formed by abstracting the subtasks. Finally, an atomic skill library is constructed via data collection and Vision-Language-Action (VLA) fine-tuning. As the atomic skill library expands dynamically with the three-wheel update strategy, the range of tasks it can cover grows naturally. In this way, our method shifts focus from end-to-end tasks to atomic skills, significantly reducing data costs while maintaining high performance and enabling efficient adaptation to new tasks. Extensive experiments in real-world settings demonstrate the effectiveness and efficiency of our approach.

arxiv情報

著者 Dongjiang Li,Bo Peng,Chang Li,Ning Qiao,Qi Zheng,Lei Sun,Yusen Qin,Bangguo Li,Yifeng Luan,Bo Wu,Yibing Zhan,Mingang Sun,Tong Xu,Lusong Li,Hui Shen,Xiaodong He
発行日 2025-02-05 08:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | An Atomic Skill Library Construction Method for Data-Efficient Embodied Manipulation はコメントを受け付けていません

UMC: Unified Resilient Controller for Legged Robots with Joint Malfunctions

要約

予測不可能な損害への適応は、自律的な脚のロボットにとって重要ですが、マルチポリティまたはメタ学習フレームワークに基づく既存の方法は、限られた一般化や複雑なメンテナンスなどの課題に直面しています。
この問題に対処するために、最初にセンサーの障害や関節の誤動作を含む8種類の損傷シナリオを分析および要約します。
次に、損傷の回復力を高めるためのマスキングメカニズムを組み込んだ、モデルフリーの2段階の2段階の統合フレームワーク、統合誤動作コントローラー(UMC)を提案します。
具体的には、モデルは最初に通常の環境でトレーニングされ、標準条件下で堅牢なパフォーマンスを確保します。
第2段階では、マスクを使用して、足のロボットが誤動作の手足に依存しないようにし、誤動作時に適応的な歩行と動きの調整を可能にします。
実験結果は、私たちのアプローチが、変圧器で平均36%、3つの移動タスクにわたってMLPで39%を改善することを示しています。
ソースコードと訓練されたモデルが一般に利用可能になります。

要約(オリジナル)

Adaptation to unpredictable damages is crucial for autonomous legged robots, yet existing methods based on multi-policy or meta-learning frameworks face challenges like limited generalization and complex maintenance. To address this issue, we first analyze and summarize eight types of damage scenarios, including sensor failures and joint malfunctions. Then, we propose a novel, model-free, two-stage training framework, Unified Malfunction Controller (UMC), incorporating a masking mechanism to enhance damage resilience. Specifically, the model is initially trained with normal environments to ensure robust performance under standard conditions. In the second stage, we use masks to prevent the legged robot from relying on malfunctioning limbs, enabling adaptive gait and movement adjustments upon malfunction. Experimental results demonstrate that our approach improves the task completion capability by an average of 36% for the transformer and 39% for the MLP across three locomotion tasks. The source code and trained models will be made available to the public.

arxiv情報

著者 Yu Qiu,Xin Lin,Jingbo Wang,Xiangtai Li,Lu Qi,Ming-Hsuan Yang
発行日 2025-02-05 09:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | UMC: Unified Resilient Controller for Legged Robots with Joint Malfunctions はコメントを受け付けていません