Efficient Path Planning and Task Allocation Algorithm for Boolean Specifications

要約

このペーパーでは、グローバルなブール仕様を満たすはずのマルチロボットシステムの新しいパス計画およびタスク割り当てアルゴリズムを紹介します。
提案された方法は、整数線形プログラミング(ILP)製剤に基づいており、スケーラビリティと計算効率を改善するために、ペトリ網からの構造的洞察と組み合わされています。
特定のクラスの問題について、\ emph {constraint Matrix}が完全に単調(Tu)であることを証明することにより、ILPの定式化は、ソリューションの積分を失うことなく線形プログラミング(LP)問題に緩和できます。
この緩和は、複雑な組み合わせ技術を排除し、計算オーバーヘッドを大幅に削減し、大規模システムのスケーラビリティを確保します。
この論文で提案されているアプローチを使用して、最大500のロボットを構成するチームのパス計画問題を解決できます。
このメソッドは、計算の牽引性を保証し、衝突回避を処理し、反復LP最適化技術を通じて計算需要を減らします。
ケーススタディは、複雑な環境でナビゲートする大規模なロボットチームのスケーラブルで衝突のないパスを生成する際のアルゴリズムの効率を示しています。
衝突回避の保守的な性質は、追加の制約、したがって計算要件を導入しますが、ソリューションは多様なアプリケーションに実用的かつ影響を受け続けています。
このアルゴリズムは、自律的なロボットがさまざまな環境でタスクまたは検索とレスキューの操作を効率的に調整する必要がある倉庫ロジスティクスなど、実際のシナリオに特に適用できます。
この作業は、理論的および実際には、スケーラブルなマルチロボットパス計画とタスク割り当ての両方に貢献し、共有環境で自律エージェントを調整するための効率的なフレームワークを提供します。

要約(オリジナル)

This paper presents a novel path-planning and task assignment algorithm for multi-robot systems that should fulfill a global Boolean specification. The proposed method is based on Integer Linear Programming (ILP) formulations, which are combined with structural insights from Petri nets to improve scalability and computational efficiency. By proving that the \emph{constraint matrix} is totally unimodular (TU) for certain classes of problems, the ILP formulation can be relaxed into a Linear Programming (LP) problem without losing the integrality of the solution. This relaxation eliminates complex combinatorial techniques, significantly reducing computational overhead and thus ensuring scalability for large-scale systems. Using the approach proposed in this paper, we can solve path-planning problems for teams made up to 500 robots. The method guarantees computational tractability, handles collision avoidance and reduces computational demands through iterative LP optimization techniques. Case studies demonstrate the efficiency of the algorithm in generating scalable, collision-free paths for large robot teams navigating in complex environments. While the conservative nature of collision avoidance introduces additional constraints, and thus, computational requirements, the solution remains practical and impactful for diverse applications. The algorithm is particularly applicable to real-world scenarios, including warehouse logistics where autonomous robots must efficiently coordinate tasks or search-and-rescue operations in various environments. This work contributes both theoretically and practically to scalable multi-robot path planning and task allocation, offering an efficient framework for coordinating autonomous agents in shared environments.

arxiv情報

著者 Ioana Hustiu,Roozbeh Abolpour,Cristian Mahulea,Marius Kloetzer
発行日 2025-06-05 11:00:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning

要約

ロボット学習は、柔軟な操作や正確な相互作用などの複雑な能力を進めるためにシミュレーションにますます依存しているため、SIMからリアルのギャップを埋めるために高品質のデジタル資産を必要とします。
ただし、シミュレーションのための既存のオープンソースの明確なオブジェクトデータセットは、視覚的リアリズムが不十分であり、物理的な忠実度が低く、現実世界でロボットタスクをマスターするモデルのトレーニングの有用性を妨げます。
これらの課題に対処するために、高品質のデジタルツインアーティキュレートオブジェクトを含む包括的なオープンソースデータセットであるArtVipを紹介します。
統一された基準を順守するプロフェッショナルな3Dモデラーが作成したArtVIPは、正確な幾何学的メッシュと高解像度テクスチャを介して視覚的リアリズムを保証しますが、物理的な忠実度は微調整された動的パラメーターを介して達成されます。
一方、データセットの先駆者は、資産内およびピクセルレベルのアフォーダンス注釈内にモジュラー相互作用行動を組み込みました。
機能マップの視覚化と光学モーションキャプチャを採用して、ARTVIPの視覚的および物理的忠実度を定量的に実証し、その適用性が模倣学習と強化学習実験を通じて検証されています。
詳細な制作ガイドラインを備えたUSD形式で提供される\ oursは完全にオープンソースであり、研究コミュニティに利益をもたらし、ロボット学習研究を進めています。
私たちのプロジェクトはhttps://x-humanoid-artvip.github.io/にあります

要約(オリジナル)

Robot learning increasingly relies on simulation to advance complex ability such as dexterous manipulations and precise interactions, necessitating high-quality digital assets to bridge the sim-to-real gap. However, existing open-source articulated-object datasets for simulation are limited by insufficient visual realism and low physical fidelity, which hinder their utility for training models mastering robotic tasks in real world. To address these challenges, we introduce ArtVIP, a comprehensive open-source dataset comprising high-quality digital-twin articulated objects, accompanied by indoor-scene assets. Crafted by professional 3D modelers adhering to unified standards, ArtVIP ensures visual realism through precise geometric meshes and high-resolution textures, while physical fidelity is achieved via fine-tuned dynamic parameters. Meanwhile, the dataset pioneers embedded modular interaction behaviors within assets and pixel-level affordance annotations. Feature-map visualization and optical motion capture are employed to quantitatively demonstrate ArtVIP ‘s visual and physical fidelity, with its applicability validated across imitation learning and reinforcement learning experiments. Provided in USD format with detailed production guidelines, \ours is fully open-source, benefiting the research community and advancing robot learning research. Our project is at https://x-humanoid-artvip.github.io/

arxiv情報

著者 Zhao Jin,Zhengping Che,Zhen Zhao,Kun Wu,Yuheng Zhang,Yinuo Zhao,Zehui Liu,Qiang Zhang,Xiaozhu Ju,Jing Tian,Yousong Xue,Jian Tang
発行日 2025-06-05 12:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning

要約

このペーパーは、動的および乱雑な環境での自律的なナビゲーションに向けて大規模な言語モデル(LLM)によって力を与えられたモーションエージェントを進め、LLMの空間的推論に関する第1および最近の独創的ではあるが限られた研究を大幅に上回ります。
具体的には、LLMSを空間的な推論者として調査して、均一にエンコードする環境(例えば、実際の屋内フロアプラン)、動的障害物である可能性のあるエージェント、および言語トークンに似た離散トークンとしてのエージェントによってLLMSを調査します。
当社のトレーニングフリーフレームワークは、再訓練や微調整なしでマルチエージェント調整、閉ループリプラン、および動的障害物回避をサポートしています。
LLMは、テキストベースのインタラクションのみを使用してエージェント、タスク、環境間で一般化し、シミュレーションと具体化されたシステムの両方で意味的に接地されたインタラクティブナビゲーションの新しい可能性を開きます。

要約(オリジナル)

This paper advances motion agents empowered by large language models (LLMs) toward autonomous navigation in dynamic and cluttered environments, significantly surpassing first and recent seminal but limited studies on LLM’s spatial reasoning, where movements are restricted in four directions in simple, static environments in the presence of only single agents much less multiple agents. Specifically, we investigate LLMs as spatial reasoners to overcome these limitations by uniformly encoding environments (e.g., real indoor floorplans), agents which can be dynamic obstacles and their paths as discrete tokens akin to language tokens. Our training-free framework supports multi-agent coordination, closed-loop replanning, and dynamic obstacle avoidance without retraining or fine-tuning. We show that LLMs can generalize across agents, tasks, and environments using only text-based interactions, opening new possibilities for semantically grounded, interactive navigation in both simulation and embodied systems.

arxiv情報

著者 Yubo Zhao,Qi Wu,Yifan Wang,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-06-05 12:17:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

A Pillbug-Inspired Morphing Mechanism Covered with Sliding Shells

要約

この研究では、錠剤の動きに触発された貝殻を備えた新しいモーフィング構造を提案しています。
錠剤の本体の代わりに、スライダークランクメカニズムに基づくループカップカップルのメカニズムが利用され、巻き上げと広がりの動きが実現されます。
このメカニズムは、ピルバグの形状のモーフィングを模倣する3つの異なる曲線を正確に模倣します。
メカニズムの一度目(DOF)を1つに減らすために、ハサミのメカニズムが追加されます。
3D湾曲したシェルは、モーフィングメカニズムのトレーサーポイントに取り付けられ、攻撃を繰り返しながら攻撃から保護します。
タイプと寸法合成を通じて、シェルと基礎となるモーフィングメカニズムを含む完全なシステムが開発されます。
3Dモデルが作成およびテストされ、提案されたシステムの形状を変える機能を実証します。
最後に、提案されたメカニズムに基づいて2つのモードを備えたロボットが開発されており、丘を転がり落ち、車輪を介して直線で移動するために広がる可能性があります。

要約(オリジナル)

This research proposes a novel morphing structure with shells inspired by the movement of pillbugs. Instead of the pillbug body, a loopcoupled mechanism based on slider-crank mechanisms is utilized to achieve the rolling up and spreading motion. This mechanism precisely imitates three distinct curves that mimic the shape morphing of a pillbug. To decrease the degree-of-freedom (DOF) of the mechanism to one, scissor mechanisms are added. 3D curved shells are then attached to the tracer points of the morphing mechanism to safeguard it from attacks while allowing it to roll. Through type and dimensional synthesis, a complete system that includes shells and an underlying morphing mechanism is developed. A 3D model is created and tested to demonstrate the proposed system’s shape-changing capability. Lastly, a robot with two modes is developed based on the proposed mechanism, which can curl up to roll down hills and can spread to move in a straight line via wheels.

arxiv情報

著者 Jieyu Wang,Yingzhong Tian,Fengfeng Xi,Damien Chablat,Jianing Lin,Gaoke Ren,Yinjun Zhao
発行日 2025-06-05 12:17:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

GEX: Democratizing Dexterity with Fully-Actuated Dexterous Hand and Exoskeleton Glove

要約

このペーパーでは、GX11トライフィンガーの擬人化手(11 DOF)とEX12トライフィンガーエキソ販売手袋(12 DOF)を組み合わせた革新的な低コストの器用な操作システムであるGEXを紹介し、高繊維性コントロールのためのキネマティックリターゲットを介して閉ループテレオ覚醒フレームワークを形成します。
どちらのコンポーネントも、モジュール式の3Dプリントの指のデザインを採用しており、完全な作動能力を維持しながら、超低い製造コストを達成しています。
従来の腱駆動型または積極化されていないアプローチから出発する我々の電気機械システムは、23のDOFすべてにわたって独立したジョイントモーターを統合し、完全な状態の観測可能性と正確な運動モデリングを確保します。
この完全な積極的なアーキテクチャは、正確な双方向の運動学計算を可能にし、外骨格とロボットの手の間の運動学的リターゲティングの忠実度を大幅に高めます。
提案されたシステムは、器用な操作研究のコストパフォーマンスギャップを橋渡しし、具体化されたAIおよび器用なロボットスキル転送学習を進めるために高品質のデモデータを取得するためのアクセス可能なプラットフォームを提供します。

要約(オリジナル)

This paper introduces GEX, an innovative low-cost dexterous manipulation system that combines the GX11 tri-finger anthropomorphic hand (11 DoF) with the EX12 tri-finger exoskeleton glove (12 DoF), forming a closed-loop teleoperation framework through kinematic retargeting for high-fidelity control. Both components employ modular 3D-printed finger designs, achieving ultra-low manufacturing costs while maintaining full actuation capabilities. Departing from conventional tendon-driven or underactuated approaches, our electromechanical system integrates independent joint motors across all 23 DoF, ensuring complete state observability and accurate kinematic modeling. This full-actuation architecture enables precise bidirectional kinematic calculations, substantially enhancing kinematic retargeting fidelity between the exoskeleton and robotic hand. The proposed system bridges the cost-performance gap in dexterous manipulation research, providing an accessible platform for acquiring high-quality demonstration data to advance embodied AI and dexterous robotic skill transfer learning.

arxiv情報

著者 Yunlong Dong,Xing Liu,Jun Wan,Zelin Deng
発行日 2025-06-05 12:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

A Unified Framework for Simulating Strongly-Coupled Fluid-Robot Multiphysics

要約

液体ロボット多目的を単一の統一された最適化問題としてシミュレートするためのフレームワークを提示します。
ロボットと流体のダイナミクスを支配する結合マニピュレーターと非圧縮性ナビエストークス方程式は、最小の作用のプリンシパルを使用して単一のラグランジアンから一緒に導き出されます。
次に、個別の変動力学を使用して、流体とロボットの両方のダイナミクスを共同でシミュレートするための安定した暗黙の時間統合スキームを導き出します。これは、流体ロボット界面で滑り止め境界条件を施行する制約によってしっかりと結合されます。
古典的な浸漬境界法を拡張して、ロボット工学で一般的に見られるマルチボディシステムで数値的によく調整され、物理的に正確な、滑り止め制約の新しい定式化を導き出します。
PoiseUille Flowや自由ストリームのディスクなど、ベンチマーク計算液型ダイナミクスの問題に対するアプローチの物理的精度を示します。
次に、シミュレーションで新しい水泳ロボットの移動ポリシーを設計し、実際のハードウェアの結果を検証し、ロボット工学タスクのフレームワークのSIMからリアル機能を紹介します。

要約(オリジナル)

We present a framework for simulating fluid-robot multiphysics as a single, unified optimization problem. The coupled manipulator and incompressible Navier-Stokes equations governing the robot and fluid dynamics are derived together from a single Lagrangian using the principal of least action. We then employ discrete variational mechanics to derive a stable, implicit time-integration scheme for jointly simulating both the fluid and robot dynamics, which are tightly coupled by a constraint that enforces the no-slip boundary condition at the fluid-robot interface. Extending the classical immersed boundary method, we derive a new formulation of the no-slip constraint that is numerically well-conditioned and physically accurate for multibody systems commonly found in robotics. We demonstrate our approach’s physical accuracy on benchmark computational fluid-dynamics problems, including Poiseuille flow and a disc in free stream. We then design a locomotion policy for a novel swimming robot in simulation and validate results on real-world hardware, showcasing our framework’s sim-to-real capability for robotics tasks.

arxiv情報

著者 Jeong Hun Lee,Junzhe Hu,Sofia Kwok,Carmel Majidi,Zachary Manchester
発行日 2025-06-05 13:21:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System

要約

不均一なマルチロボットシステムは、調整されたハイブリッド協力を必要とする複雑なタスクで大きな可能性を示しています。
ただし、静的モデルに依存する従来のアプローチは、タスクの多様性と動的環境に苦労することがよくあります。
これは、不均一なエージェント全体で低レベルの実行で高レベルの推論を埋めることができる一般化可能なインテリジェンスの必要性を強調しています。
これに対処するために、プロンプトの大きな言語モデル(LLM)とグリッドマスクが強化された微調整されたビジョン言語モデル(VLM)を統合する階層フレームワークを提案します。
LLMはタスク分解とグローバルなセマンティックマップの構築を実行し、VLMは航空画像からタスク指定のセマンティックラベルと2D空間情報を抽出し、ローカル計画をサポートします。
このフレームワーク内で、空中ロボットはグローバルに最適化されたセマンティックパスに従い、鳥類観測画像を継続的に提供し、地上ロボットのローカルセマンティックナビゲーションと操作を導きます。
実際のレターキューブの配置タスクでの実験は、動的環境でのフレームワークの適応性と堅牢性を示しています。
私たちの知る限り、これは、VLMベースの認識をLLM駆動型タスクの推論とモーション計画と統合する航空機の不均一システムの最初のデモンストレーションです。

要約(オリジナル)

Heterogeneous multi-robot systems show great potential in complex tasks requiring coordinated hybrid cooperation. However, traditional approaches relying on static models often struggle with task diversity and dynamic environments. This highlights the need for generalizable intelligence that can bridge high-level reasoning with low-level execution across heterogeneous agents. To address this, we propose a hierarchical framework integrating a prompted Large Language Model (LLM) and a GridMask-enhanced fine-tuned Vision Language Model (VLM). The LLM performs task decomposition and global semantic map construction, while the VLM extracts task-specified semantic labels and 2D spatial information from aerial images to support local planning. Within this framework, the aerial robot follows a globally optimized semantic path and continuously provides bird-view images, guiding the ground robot’s local semantic navigation and manipulation, including target-absent scenarios where implicit alignment is maintained. Experiments on a real-world letter-cubes arrangement task demonstrate the framework’s adaptability and robustness in dynamic environments. To the best of our knowledge, this is the first demonstration of an aerial-ground heterogeneous system integrating VLM-based perception with LLM-driven task reasoning and motion planning.

arxiv情報

著者 Haokun Liu,Zhaoqi Ma,Yunong Li,Junichiro Sugihara,Yicheng Chen,Jinjie Li,Moju Zhao
発行日 2025-06-05 13:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

PulseRide: A Robotic Wheelchair for Personalized Exertion Control with Human-in-the-Loop Reinforcement Learning

要約

アクティブなライフスタイルを維持することは、生活の質に不可欠ですが、車椅子のユーザーにとっては挑戦的です。
たとえば、動力付き車椅子は、不活性による肥満と脱行のリスクの増加に直面しています。
逆に、車椅子のハンドリムを押すことで車椅子を推進する手動の車椅子ユーザーは、しばしば繰り返し動きから上肢の怪我に直面します。
これらの課題は、怪我のリスクを最小限に抑えながら活動を促進するモビリティシステムの必要性を強調しています。
車椅子の使用中に最適な運動を維持することは、健康上の利点と関与を高めますが、個々の生理学的反応の変動は運動の最適化を複雑にします。
これに対処するために、各ユーザーの生理学的反応に基づいてパーソナライズされた支援を提供する新しい車椅子システムであるPulserideを導入し、身体的運動の目標を維持するのに役立ちます。
障害物の回避とナビゲーションに焦点を当てた従来の支援システムとは異なり、Pulserideはリアルタイムの生理学的データを心拍数とECGの車椅子速度で統合して、適応支援を提供します。
深いQネットワークアルゴリズム(DQN)を使用した人間のループ補強学習アプローチを使用して、システムはプッシュアシスタンスを調整して、過剰または過剰な耐性なしにユーザーを中程度のアクティビティ範囲内に保ちます。
パルセライドの有効性を評価するために、カーペットやスレートを含むさまざまな地形で10人のユーザーとの予備テストを実施しました。
私たちの調査結果は、個々のユーザーにとって、Pulserideが中程度のアクティビティゾーン内の心拍数を、手動の車椅子よりも71.7%長く維持していることを示しています。
すべてのユーザーの中で、41.86%の筋肉収縮の平均減少が観察され、疲労発症が遅れ、全体的な快適性と関与が向上しました。
これらの結果は、Pulserideがより健康的で適応性のあるモビリティソリューションを提供し、パッシブと物理的な課税モビリティオプションのギャップを埋めることを示しています。

要約(オリジナル)

Maintaining an active lifestyle is vital for quality of life, yet challenging for wheelchair users. For instance, powered wheelchairs face increasing risks of obesity and deconditioning due to inactivity. Conversely, manual wheelchair users, who propel the wheelchair by pushing the wheelchair’s handrims, often face upper extremity injuries from repetitive motions. These challenges underscore the need for a mobility system that promotes activity while minimizing injury risk. Maintaining optimal exertion during wheelchair use enhances health benefits and engagement, yet the variations in individual physiological responses complicate exertion optimization. To address this, we introduce PulseRide, a novel wheelchair system that provides personalized assistance based on each user’s physiological responses, helping them maintain their physical exertion goals. Unlike conventional assistive systems focused on obstacle avoidance and navigation, PulseRide integrates real-time physiological data-such as heart rate and ECG-with wheelchair speed to deliver adaptive assistance. Using a human-in-the-loop reinforcement learning approach with Deep Q-Network algorithm (DQN), the system adjusts push assistance to keep users within a moderate activity range without under- or over-exertion. We conducted preliminary tests with 10 users on various terrains, including carpet and slate, to assess PulseRide’s effectiveness. Our findings show that, for individual users, PulseRide maintains heart rates within the moderate activity zone as much as 71.7 percent longer than manual wheelchairs. Among all users, we observed an average reduction in muscle contractions of 41.86 percent, delaying fatigue onset and enhancing overall comfort and engagement. These results indicate that PulseRide offers a healthier, adaptive mobility solution, bridging the gap between passive and physically taxing mobility options.

arxiv情報

著者 Azizul Zahid,Bibek Poudel,Danny Scott,Jason Scott,Scott Crouter,Weizi Li,Sai Swaminathan
発行日 2025-06-05 14:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

Mini Diffuser: Fast Multi-task Diffusion Policy Training Using Two-level Mini-batches

要約

マルチタスクビジョン言語ロボット拡散ポリシーをトレーニングするために必要な時間とメモリを数桁削減する方法を提示します。
この改善は、アクションの拡散とそれに影響を与えた画像拡散技術との間の以前に採用されていない区別から生じます。画像生成では、ターゲットは高次元です。
対照的に、アクション生成では、ターゲットの次元は比較的小さく、画像条件のみが高次元です。
私たちのアプローチ、\ emph {mini diffuser}は、従来の1対1のサンプリング戦略ではなく、各視力言語条件と複数のノイズされたアクションサンプルをペアにする\ emphe {2レベルのミニバッチ}を導入することにより、この非対称性を活用します。
このバッチスキームをサポートするために、完全なコンディショニングアクセスを維持しながら、サンプル間の情報漏れを防ぐ拡散トランスに建築的適応を導入します。
RLBenchシミュレーションでは、Mini-Diffuserは、最先端のマルチタスク拡散ポリシーのパフォーマンスの95%を達成し、トレーニング時間の5 \%とメモリの7 \%のみを使用します。
実際の実験では、ミニディフューザーがマルチモーダルアクション分布をモデル化し、多様な知覚入力を条件付けた動作を生成する能力など、拡散ベースのポリシーの重要な強みを保持することをさらに検証します。
mim-diffuse-portor.github.ioで入手可能なコード

要約(オリジナル)

We present a method that reduces, by an order of magnitude, the time and memory needed to train multi-task vision-language robotic diffusion policies. This improvement arises from a previously underexplored distinction between action diffusion and the image diffusion techniques that inspired it: In image generation, the target is high-dimensional. By contrast, in action generation, the dimensionality of the target is comparatively small, and only the image condition is high-dimensional. Our approach, \emph{Mini Diffuser}, exploits this asymmetry by introducing \emph{two-level minibatching}, which pairs multiple noised action samples with each vision-language condition, instead of the conventional one-to-one sampling strategy. To support this batching scheme, we introduce architectural adaptations to the diffusion transformer that prevent information leakage across samples while maintaining full conditioning access. In RLBench simulations, Mini-Diffuser achieves 95\% of the performance of state-of-the-art multi-task diffusion policies, while using only 5\% of the training time and 7\% of the memory. Real-world experiments further validate that Mini-Diffuser preserves the key strengths of diffusion-based policies, including the ability to model multimodal action distributions and produce behavior conditioned on diverse perceptual inputs. Code available at mini-diffuse-actor.github.io

arxiv情報

著者 Yutong Hu,Pinhao Song,Kehan Wen,Renaud Detry
発行日 2025-06-05 14:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration

要約

模倣学習はロボット操作に大きな約束を示していますが、ポリシーの実行は、一般的に人間のオペレーターによって収集された遅刻のデモのために、しばしば不十分に遅くなります。
この作業では、エントロピー誘導デモンストレーションの加速を介して視覚運動政策の実行を加速するための自己監視方法であるDemospeedupを提示します。
Demospeedupは、通常のスピードデモンストレーションに関するarbitrary意的な生成ポリシー(ACTまたは拡散ポリシーなど)のトレーニングから始まります。これは、フレームごとのアクションエントロピー推定器として機能します。
重要な洞察は、より低いアクションエントロピー推定のフレームが、より一貫したポリシー行動を必要とすることです。
対照的に、より高いエントロピー推定値を持つフレームは、よりカジュアルなセクションに対応するため、より安全に加速することができます。
したがって、推定されたエントロピーに従って元のデモをセグメント化し、エントロピー値とともに増加する速度でダウンサンプリングすることにより、それらを加速します。
スピードアップデモンストレーションでトレーニングされた結果、結果のポリシーは、タスクの完了パフォーマンスを維持しながら、最大3倍高速で実行されます。
興味深いことに、これらのポリシーは、意思決定の地平線が減少することの利点により、通常の速度デモンストレーションで訓練されたポリシーよりも高い成功率を達成することさえできます。

要約(オリジナル)

Imitation learning has shown great promise in robotic manipulation, but the policy’s execution is often unsatisfactorily slow due to commonly tardy demonstrations collected by human operators. In this work, we present DemoSpeedup, a self-supervised method to accelerate visuomotor policy execution via entropy-guided demonstration acceleration. DemoSpeedup starts from training an arbitrary generative policy (e.g., ACT or Diffusion Policy) on normal-speed demonstrations, which serves as a per-frame action entropy estimator. The key insight is that frames with lower action entropy estimates call for more consistent policy behaviors, which often indicate the demands for higher-precision operations. In contrast, frames with higher entropy estimates correspond to more casual sections, and therefore can be more safely accelerated. Thus, we segment the original demonstrations according to the estimated entropy, and accelerate them by down-sampling at rates that increase with the entropy values. Trained with the speedup demonstrations, the resulting policies execute up to 3 times faster while maintaining the task completion performance. Interestingly, these policies could even achieve higher success rates than those trained with normal-speed demonstrations, due to the benefits of reduced decision-making horizons.

arxiv情報

著者 Lingxiao Guo,Zhengrong Xue,Zijing Xu,Huazhe Xu
発行日 2025-06-05 14:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする