NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation

要約

モバイルロボット工学の基本的な課題である視覚ナビゲーションは、多様な環境を処理するための多才なポリシーを要求します。
古典的な方法は、特定のコストを最小限に抑えるために幾何学的なソリューションを活用し、新しいシナリオに適応性を提供しますが、マルチモードルの設計と手作りのルールへの依存によりシステムエラーが発生しやすいです。
学習ベースの方法は、高い計画の成功率を達成しながら、トレーニングデータを超えて目に見えない環境に一般化する際の困難に直面し、多くの場合、広範なトレーニングが必要です。
これらの制限に対処するために、RGBのみの視覚ナビゲーションの学習ベースの方法と古典的なアプローチの強みを組み合わせたハイブリッドアプローチを提案します。
私たちの方法は、最初に、多様なパスRGB観測ペアに関する条件付き拡散モデルをトレーニングします。
推論中、微分可能なシーン固有およびタスクレベルのコストの勾配を統合し、拡散モデルを導き、制約を満たす有効なパスを生成します。
このアプローチは、再訓練の必要性を軽減し、プラグアンドプレイソリューションを提供します。
シミュレーションおよび実世界のシナリオ全体で、屋内および屋外の両方の設定での広範な実験は、アプローチのゼロショット転送能力を示し、ベースライン方法と比較してより高い成功率と衝突が少なくなります。
コードはhttps://github.com/sysu-roboticslab/navidでリリースされます。

要約(オリジナル)

Visual navigation, a fundamental challenge in mobile robotics, demands versatile policies to handle diverse environments. Classical methods leverage geometric solutions to minimize specific costs, offering adaptability to new scenarios but are prone to system errors due to their multi-modular design and reliance on hand-crafted rules. Learning-based methods, while achieving high planning success rates, face difficulties in generalizing to unseen environments beyond the training data and often require extensive training. To address these limitations, we propose a hybrid approach that combines the strengths of learning-based methods and classical approaches for RGB-only visual navigation. Our method first trains a conditional diffusion model on diverse path-RGB observation pairs. During inference, it integrates the gradients of differentiable scene-specific and task-level costs, guiding the diffusion model to generate valid paths that meet the constraints. This approach alleviates the need for retraining, offering a plug-and-play solution. Extensive experiments in both indoor and outdoor settings, across simulated and real-world scenarios, demonstrate zero-shot transfer capability of our approach, achieving higher success rates and fewer collisions compared to baseline methods. Code will be released at https://github.com/SYSU-RoboticsLab/NaviD.

arxiv情報

著者 Yiming Zeng,Hao Ren,Shuhang Wang,Junlong Huang,Hui Cheng
発行日 2025-04-14 09:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation はコメントを受け付けていません

Velocity-free task-space regulator for robot manipulators with external disturbances

要約

このペーパーでは、外部外障害を服用するロボットマニピュレーターのタスクスペースの堅牢な調節の問題に対処します。
内部モデルの原則と受動性ベースの出力フィードバック制御アプローチを組み合わせることにより、速度のない制御法が提案されます。
結果として得られるコントローラーは、規制エラーの漸近収束を保証するだけでなく、不要な外部正弦波乱れを拒否します。
提案された方法の可能性は、マルチジョイントロボットマニピュレーター制御システムの合成のための、そのシンプルさ、直感性、および簡単なゲイン選択基準にあります。

要約(オリジナル)

This paper addresses the problem of task-space robust regulation of robot manipulators subject to external disturbances. A velocity-free control law is proposed by combining the internal model principle and the passivity-based output-feedback control approach. The resulting controller not only ensures asymptotic convergence of the regulation error but also rejects unwanted external sinusoidal disturbances. The potential of the proposed method lies in its simplicity, intuitiveness, and straightforward gain selection criteria for the synthesis of multi-joint robot manipulator control systems.

arxiv情報

著者 Haiwen Wu,Bayu Jayawardhana,Dabo Xu
発行日 2025-04-14 09:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Velocity-free task-space regulator for robot manipulators with external disturbances はコメントを受け付けていません

KeyMPs: One-Shot Vision-Language Guided Motion Generation by Sequencing DMPs for Occlusion-Rich Tasks

要約

動的運動プリミティブ(DMP)は、滑らかなロボットモーションがモジュラーパラメーターにエンコードされる柔軟なフレームワークを提供します。
ただし、ビジョンや言語などのロボット工学で一般的に使用されているマルチモーダル入力をフレームワークに統合する際の課題に直面しています。
DMPのポテンシャルを完全に最大化するために、マルチモーダル入力を処理できるようにすることが不可欠です。
さらに、観測閉塞がそのようなタスクで簡単に解釈される可能性があるため、ワンショットの複雑なモーション生成を必要とするオブジェクト中心のタスクを処理するDMPの機能を拡張することも目指しています(例えば、ケーキのアイシングのナイフ閉塞、生地の練習における手閉塞など)。
有望なアプローチは、マルチモーダルデータを処理し、高レベルの概念を把握できるビジョン言語モデル(VLM)を活用することです。
ただし、通常、低レベルのモーションの詳細を直接推測するのに十分な知識と能力が欠けており、代わりに高レベルの指示と低レベルのコントロールの間の橋のみとして機能します。
この制限に対処するために、VLMSとDMPのシーケンスを組み合わせたフレームワークであるKeypoint Pairs Guention Guided Movement Primitives(KeyMPS)とラベル付けされたキーワードを提案します。
KeyMPSは、VLMSの高レベルの推論機能を使用して、キーワードラベルのプリミティブ選択とVLMSの空間認識を介して参照プリミティブを選択して、キーポイントペア生成を通じて全体的な動きを一般化することによりDMPをシーケンスするために使用される空間スケーリングパラメーターを生成します。
閉塞が豊富な操作タスク、特にシミュレートされた環境と実際の両方の環境の両方でオブジェクト切断実験を通じてアプローチを検証し、VLMSサポートを統合する他のDMPベースの方法よりも優れたパフォーマンスを実証します。

要約(オリジナル)

Dynamic Movement Primitives (DMPs) provide a flexible framework wherein smooth robotic motions are encoded into modular parameters. However, they face challenges in integrating multimodal inputs commonly used in robotics like vision and language into their framework. To fully maximize DMPs’ potential, enabling them to handle multimodal inputs is essential. In addition, we also aim to extend DMPs’ capability to handle object-focused tasks requiring one-shot complex motion generation, as observation occlusion could easily happen mid-execution in such tasks (e.g., knife occlusion in cake icing, hand occlusion in dough kneading, etc.). A promising approach is to leverage Vision-Language Models (VLMs), which process multimodal data and can grasp high-level concepts. However, they typically lack enough knowledge and capabilities to directly infer low-level motion details and instead only serve as a bridge between high-level instructions and low-level control. To address this limitation, we propose Keyword Labeled Primitive Selection and Keypoint Pairs Generation Guided Movement Primitives (KeyMPs), a framework that combines VLMs with sequencing of DMPs. KeyMPs use VLMs’ high-level reasoning capability to select a reference primitive through keyword labeled primitive selection and VLMs’ spatial awareness to generate spatial scaling parameters used for sequencing DMPs by generalizing the overall motion through keypoint pairs generation, which together enable one-shot vision-language guided motion generation that aligns with the intent expressed in the multimodal input. We validate our approach through an occlusion-rich manipulation task, specifically object cutting experiments in both simulated and real-world environments, demonstrating superior performance over other DMP-based methods that integrate VLMs support.

arxiv情報

著者 Edgar Anarossi,Yuhwan Kwon,Hirotaka Tahara,Shohei Tanaka,Keisuke Shirai,Masashi Hamaya,Cristian C. Beltran-Hernandez,Atsushi Hashimoto,Takamitsu Matsubara
発行日 2025-04-14 09:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | KeyMPs: One-Shot Vision-Language Guided Motion Generation by Sequencing DMPs for Occlusion-Rich Tasks はコメントを受け付けていません

EmbodiedAgent: A Scalable Hierarchical Approach to Overcome Practical Challenge in Multi-Robot Control

要約

このペーパーでは、不均一なマルチロボット制御のための階層的なフレームワークであるEmbodiedagentを紹介します。
Embodiedagentは、非現実的なタスクにおける幻覚の重要な制限に対処しています。
私たちのアプローチでは、次のアクション予測パラダイムを構造化されたメモリシステムと統合して、環境制約に対するアクションを動的に検証しながら、実行可能なロボットスキルにタスクを分解します。
幻覚を軽減するための非実用的なケースのサブセットを含む、100のシナリオにまたがる18,000を超える注釈付き計画インスタンスのデータセットであるMultiplan+を提示します。
パフォーマンスを評価するために、自動化されたメトリックとLLM支援エキスパートグレーディングを組み合わせて、ロボット計画評価スキーマ(RPA)を提案します。
実験は、最先端のモデルに対する具体化された優位性を示しており、71.85%のRPASスコアを達成しています。
オフィスサービスタスクでの実際の検証は、長距離の目標のために不均一なロボットを調整する能力を強調しています。

要約(オリジナル)

This paper introduces EmbodiedAgent, a hierarchical framework for heterogeneous multi-robot control. EmbodiedAgent addresses critical limitations of hallucination in impractical tasks. Our approach integrates a next-action prediction paradigm with a structured memory system to decompose tasks into executable robot skills while dynamically validating actions against environmental constraints. We present MultiPlan+, a dataset of more than 18,000 annotated planning instances spanning 100 scenarios, including a subset of impractical cases to mitigate hallucination. To evaluate performance, we propose the Robot Planning Assessment Schema (RPAS), combining automated metrics with LLM-aided expert grading. Experiments demonstrate EmbodiedAgent’s superiority over state-of-the-art models, achieving 71.85% RPAS score. Real-world validation in an office service task highlights its ability to coordinate heterogeneous robots for long-horizon objectives.

arxiv情報

著者 Hanwen Wan,Yifei Chen,Zeyu Wei,Dongrui Li,Zexin Lin,Donghao Wu,Jiu Cheng,Yuxiang Zhang,Xiaoqiang Ji
発行日 2025-04-14 09:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | EmbodiedAgent: A Scalable Hierarchical Approach to Overcome Practical Challenge in Multi-Robot Control はコメントを受け付けていません

Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models

要約

マルチモーダル分布とトレーニングの安定性のモデリングで印象的なパフォーマンスを示す拡散ベースの模倣学習の最近の進歩は、さまざまなロボット学習タスクの大きな進歩をもたらしました。
視覚的なナビゲーションでは、以前の拡散ベースのポリシーは通常、ガウスノイズを除去することから開始することによりアクションシーケンスを生成します。
ただし、ターゲットアクション分布は、多くの場合、ガウスノイズから大きく分岐し、冗長化された除去ステップと学習の複雑さの向上につながります。
さらに、効果的なアクション分布のスパース性により、ポリシーがガイダンスなしで正確なアクションを生成することが困難になります。
これらの問題に対処するために、Navibridgerという名前の拡散ブリッジモデルを活用する斬新で統一された視覚ナビゲーションフレームワークを提案します。
このアプローチは、有益な事前のアクションから開始し、除去プロセスのガイダンスと効率を高めることにより、アクション生成を可能にします。
拡散橋が視覚ナビゲーションタスクでの模倣学習を強化し、以前のアクションを生成するための3つのソースポリシーをさらに調べることができる方法を探ります。
シミュレートされた屋内および現実世界の両方の屋内および屋外シナリオの両方の広範な実験は、ナビブリッジがポリシーの推論を加速し、ターゲットアクションシーケンスを生成するベースラインを上回ることを示しています。
コードはhttps://github.com/hren20/naividgerで入手できます。

要約(オリジナル)

Recent advancements in diffusion-based imitation learning, which show impressive performance in modeling multimodal distributions and training stability, have led to substantial progress in various robot learning tasks. In visual navigation, previous diffusion-based policies typically generate action sequences by initiating from denoising Gaussian noise. However, the target action distribution often diverges significantly from Gaussian noise, leading to redundant denoising steps and increased learning complexity. Additionally, the sparsity of effective action distributions makes it challenging for the policy to generate accurate actions without guidance. To address these issues, we propose a novel, unified visual navigation framework leveraging the denoising diffusion bridge models named NaviBridger. This approach enables action generation by initiating from any informative prior actions, enhancing guidance and efficiency in the denoising process. We explore how diffusion bridges can enhance imitation learning in visual navigation tasks and further examine three source policies for generating prior actions. Extensive experiments in both simulated and real-world indoor and outdoor scenarios demonstrate that NaviBridger accelerates policy inference and outperforms the baselines in generating target action sequences. Code is available at https://github.com/hren20/NaiviBridger.

arxiv情報

著者 Hao Ren,Yiming Zeng,Zetong Bi,Zhaoliang Wan,Junlong Huang,Hui Cheng
発行日 2025-04-14 09:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models はコメントを受け付けていません

Joint Action Language Modelling for Transparent Policy Execution

要約

エージェントの意図は、具体化されたポリシーのブラックボックスの性質の背後に隠されたままであることがよくあります。
次のアクションを説明する自然言語ステートメントを使用したコミュニケーションは、エージェントの行動に向けた透明性を提供できます。
ポリシー学習の問題を言語生成の問題に変換し、それを従来の自己回帰モデリングと組み合わせることにより、透明行動を学習プロセスに直接挿入することを目指しています。
結果として得られるモデルは、透明な自然言語ステートメントを生成し、その後、言語テーブル環境での長老タスクを解決するための特定のアクションを表すトークンが続きます。
以前の作業に続いて、このモデルは、特別な離散化されたトークンに代表される自己回避的な方法で表されるポリシーを作成することを学ぶことができます。
アクションの予測と透明なエージェントの高品質の言語の作成との関係を調査することに特に重点を置いています。
多くの場合、アクション軌跡の品質と透明なステートメントの両方が、それらが同時に生成されると増加することがわかります。

要約(オリジナル)

An agent’s intention often remains hidden behind the black-box nature of embodied policies. Communication using natural language statements that describe the next action can provide transparency towards the agent’s behavior. We aim to insert transparent behavior directly into the learning process, by transforming the problem of policy learning into a language generation problem and combining it with traditional autoregressive modelling. The resulting model produces transparent natural language statements followed by tokens representing the specific actions to solve long-horizon tasks in the Language-Table environment. Following previous work, the model is able to learn to produce a policy represented by special discretized tokens in an autoregressive manner. We place special emphasis on investigating the relationship between predicting actions and producing high-quality language for a transparent agent. We find that in many cases both the quality of the action trajectory and the transparent statement increase when they are generated simultaneously.

arxiv情報

著者 Theodor Wulff,Rahul Singh Maharjan,Xinyun Chi,Angelo Cangelosi
発行日 2025-04-14 09:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | Joint Action Language Modelling for Transparent Policy Execution はコメントを受け付けていません

A Framework for Adaptive Load Redistribution in Human-Exoskeleton-Cobot Systems

要約

Exoskeletonsのようなウェアラブルデバイスは、身体の特定のジョイントの過度の負荷を減らすように設計されています。
具体的には、単一または2度のフリードーム(DOF)上半身の産業外骨格は通常、肘と肩の関節の負担を補うことに焦点を当てています。
ただし、毎日の活動中に、外部負荷がサポートされているジョイントと正しく整合しているという保証はありません。
作業プロセスを最適化して、外部負荷が主に(外骨格によって補償できる範囲で)サポートされているジョイントに向けられていることを保証することができます。
共同ロボット(コボット)は、この最適化において役割を果たすことができ、人間の仕事の共同側面を補完します。
この研究では、ヒューマンコボットとエキゾスケレトンの相互作用のための適応的で調整された制御システムを提案します。
このシステムは、サポートされているジョイントの利用を最大化するためにタスク座標を調整します。
外骨格のトルク限界を超えると、フレームワークはタスクフレームを継続的に適応させ、サポートされているボディジョイントに過度の負荷を再配布して、サポートされているものの過負荷を防ぎます。
単一の肘エキソ販売、コボット、および4つの被験者を含む同等の産業絵画タスクでアプローチを検証しました。それぞれが、5つの異なる最適化重量マトリックスと2つの異なるペイロードを備えた4つの異なる初期アーム構成でテストされました。

要約(オリジナル)

Wearable devices like exoskeletons are designed to reduce excessive loads on specific joints of the body. Specifically, single- or two-degrees-of-freedom (DOF) upper-body industrial exoskeletons typically focus on compensating for the strain on the elbow and shoulder joints. However, during daily activities, there is no assurance that external loads are correctly aligned with the supported joints. Optimizing work processes to ensure that external loads are primarily (to the extent that they can be compensated by the exoskeleton) directed onto the supported joints can significantly enhance the overall usability of these devices and the ergonomics of their users. Collaborative robots (cobots) can play a role in this optimization, complementing the collaborative aspects of human work. In this study, we propose an adaptive and coordinated control system for the human-cobot-exoskeleton interaction. This system adjusts the task coordinates to maximize the utilization of the supported joints. When the torque limits of the exoskeleton are exceeded, the framework continuously adapts the task frame, redistributing excessive loads to non-supported body joints to prevent overloading the supported ones. We validated our approach in an equivalent industrial painting task involving a single-DOF elbow exoskeleton, a cobot, and four subjects, each tested in four different initial arm configurations with five distinct optimisation weight matrices and two different payloads.

arxiv情報

著者 Emir Mobedi,Gokhan Solak,Arash Ajoudani
発行日 2025-04-14 10:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Framework for Adaptive Load Redistribution in Human-Exoskeleton-Cobot Systems はコメントを受け付けていません

A Human-Sensitive Controller: Adapting to Human Ergonomics and Physical Constraints via Reinforcement Learning

要約

仕事関連の筋骨格障害は、産業環境で引き続き大きな課題であり、労働力の参加の減少、医療費の増加、長期障害につながります。
この研究では、筋骨格障害の歴史を持つ個人を標準的な仕事の役割に再統合することを目的とした人間に敏感なロボットシステムを紹介し、同時により広範な労働力の人間工学的条件を最適化します。
この研究は、人間工学に基づいた状態の最適化とタスクの実行中の痛みを防ぐことに焦点を当て、共同ロボットの人間に認識された制御戦略を開発するための強化学習を活用しています。
QラーニングとディープQネットワーク(DQN)の2つのRLアプローチが実装およびテストされ、個々のユーザー特性に基づいて制御戦略をパーソナライズしました。
実験結果はシミュレーションとリアルのギャップを明らかにしましたが、微調整フェーズは、実際の条件にポリシーを正常に適合させました。
DQNは、ゼロの痛みのリスクと安全な人間工学的レベルを維持しながら、タスクをより速く完了することにより、Qラーニングを上回りました。
構造化されたテストプロトコルにより、システムの多様な人間の擬人化に対する適応性が確認され、より安全で包括的な職場を可能にするRL駆動コボットの可能性を強調しました。

要約(オリジナル)

Work-Related Musculoskeletal Disorders continue to be a major challenge in industrial environments, leading to reduced workforce participation, increased healthcare costs, and long-term disability. This study introduces a human-sensitive robotic system aimed at reintegrating individuals with a history of musculoskeletal disorders into standard job roles, while simultaneously optimizing ergonomic conditions for the broader workforce. This research leverages reinforcement learning to develop a human-aware control strategy for collaborative robots, focusing on optimizing ergonomic conditions and preventing pain during task execution. Two RL approaches, Q-Learning and Deep Q-Network (DQN), were implemented and tested to personalize control strategies based on individual user characteristics. Although experimental results revealed a simulation-to-real gap, a fine-tuning phase successfully adapted the policies to real-world conditions. DQN outperformed Q-Learning by completing tasks faster while maintaining zero pain risk and safe ergonomic levels. The structured testing protocol confirmed the system’s adaptability to diverse human anthropometries, underscoring the potential of RL-driven cobots to enable safer, more inclusive workplaces.

arxiv情報

著者 Vitor Martins,Sara M. Cerqueira,Mercedes Balcells,Elazer R Edelman,Cristina P. Santos
発行日 2025-04-14 11:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Human-Sensitive Controller: Adapting to Human Ergonomics and Physical Constraints via Reinforcement Learning はコメントを受け付けていません

Learning-based Observer for Coupled Disturbance

要約

ロボットシステムの高精度制御の達成は、低忠実度の動的モデルと外乱によって妨げられます。
特に、内部の不確実性と外部障害の複雑な結合は、この課題をさらに悪化させます。
この研究では、コントロールと学習の哲学を組み合わせて結合した妨害を正確に推定できる効果的かつ収束的なアルゴリズムを紹介します。
具体的には、Chebyshevシリーズの拡張に頼ることにより、結合された妨害は、まず、システム状態と外乱にそれぞれ依存する2つの既知の構造にそれぞれ分解されます。
その後、正規化された最小二乗アルゴリズムが形式化され、履歴の時系列データを使用してパラメーターマトリックスを学習します。
最後に、学習部分を利用することにより、結合妨害の高精度の推定を達成するために、多項式障害観察者が特に考案されています。
提案されたアルゴリズムは、広範なシミュレーションと実際の飛行テストを通じて評価されます。
この作業は、ロボットアプリケーションの長年の課題に対処するための学習アプローチを制御フレームワークに統合するための新しい経路を提供できると考えています。

要約(オリジナル)

Achieving high-precision control for robotic systems is hindered by the low-fidelity dynamical model and external disturbances. Especially, the intricate coupling between internal uncertainties and external disturbances further exacerbates this challenge. This study introduces an effective and convergent algorithm enabling accurate estimation of the coupled disturbance via combining control and learning philosophies. Concretely, by resorting to Chebyshev series expansion, the coupled disturbance is firstly decomposed into an unknown parameter matrix and two known structures dependent on system state and external disturbance respectively. A regularized least squares algorithm is subsequently formalized to learn the parameter matrix using historical time-series data. Finally, a polynomial disturbance observer is specifically devised to achieve a high-precision estimation of the coupled disturbance by utilizing the learned portion. The proposed algorithm is evaluated through extensive simulations and real flight tests. We believe this work can offer a new pathway to integrate learning approaches into control frameworks for addressing longstanding challenges in robotic applications.

arxiv情報

著者 Jindou Jia,Meng Wang,Zihan Yang,Bin Yang,Yuhang Liu,Kexin Guo,Xiang Yu
発行日 2025-04-14 11:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Learning-based Observer for Coupled Disturbance はコメントを受け付けていません

MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

要約

マルチモーダル大手言語モデル(MLLM)は、複雑な言語と視覚データの理解に優れており、ジェネラリストのロボットシステムが命令を解釈し、具体化されたタスクを実行できるようにします。
それにもかかわらず、彼らの現実世界の展開は、実質的な計算とストレージの要求によって妨げられています。
LLM層の均質なパターンに関する最近の洞察は、早期出口やトークン剪定など、これらの課題に対処するためのスパース化技術に影響を与えました。
ただし、これらの方法は、下流のロボットタスクに最も関連するセマンティック情報をエンコードする最終レイヤーの重要な役割をしばしば無視します。
神経科学における浅い脳仮説(SBH)の最近のブレークスルーとモデルのスパース化における専門家の混合に合わせて、各LLM層を専門家として概念化し、ダイナミックLLM層活性化のための混合物の視覚演算モデル(Mole-VLA、または単にモル)アーキテクチャを提案します。
Mole向けに空間的意識のあるルーター(星)を導入して、ロボットの現在の状態に基づいて層の一部のみを選択的にアクティブにし、認知と因果推論に特化した脳の明確なシグナル経路を模倣します。
さらに、ほくろで失われたLLMの認知能力を補うために、認知自己認識蒸留(COGKD)フレームワークを考案します。
COGKDは、タスクの要求の理解を高め、認知機能を活用することにより、タスク関連のアクションシーケンスの生成を改善します。
RLBenchシミュレーションと現実世界の両方の環境で実施された広範な実験は、効率とパフォーマンスの両方におけるモルVLAの優位性を示しています。
具体的には、Mole-VLAは、標準のLLMと比較して、10のタスクにわたって平均成功率の平均成功率が8%改善され、計算コストをx5.6まで削減します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) excel in understanding complex language and visual data, enabling generalist robotic systems to interpret instructions and perform embodied tasks. Nevertheless, their real-world deployment is hindered by substantial computational and storage demands. Recent insights into the homogeneous patterns in the LLM layer have inspired sparsification techniques to address these challenges, such as early exit and token pruning. However, these methods often neglect the critical role of the final layers that encode the semantic information most relevant to downstream robotic tasks. Aligning with the recent breakthrough of the Shallow Brain Hypothesis (SBH) in neuroscience and the mixture of experts in model sparsification, we conceptualize each LLM layer as an expert and propose a Mixture-of-Layers Vision-Language-Action model (MoLe-VLA, or simply MoLe) architecture for dynamic LLM layer activation. We introduce a Spatial-Temporal Aware Router (STAR) for MoLe to selectively activate only parts of the layers based on the robot’s current state, mimicking the brain’s distinct signal pathways specialized for cognition and causal reasoning. Additionally, to compensate for the cognitive ability of LLMs lost in MoLe, we devise a Cognition Self-Knowledge Distillation (CogKD) framework. CogKD enhances the understanding of task demands and improves the generation of task-relevant action sequences by leveraging cognitive features. Extensive experiments conducted in both RLBench simulation and real-world environments demonstrate the superiority of MoLe-VLA in both efficiency and performance. Specifically, MoLe-VLA achieves an 8% improvement in the mean success rate across ten tasks while reducing computational costs by up to x5.6 compared to standard LLMs.

arxiv情報

著者 Rongyu Zhang,Menghang Dong,Yuan Zhang,Liang Heng,Xiaowei Chi,Gaole Dai,Li Du,Yuan Du,Shanghang Zhang
発行日 2025-04-14 11:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation はコメントを受け付けていません