CIVIL: Causal and Intuitive Visual Imitation Learning

要約

今日のロボットは、人間の例を模倣することで新しいタスクを学びます。
ただし、視覚模倣学習に対するこの標準的なアプローチは根本的に限られています。ロボットは、人間が何をするかを観察しますが、人間がそれらの行動を選択する理由ではありません。
ロボット学習者は、人間の決定にその要因を考慮せずに、データを誤って解釈し、環境が変化したときにタスクを実行できないことがよくあります。
したがって、私たちは視点の変化を提案します。ロボットがどのような行動をとるべきかを示すためだけに人間の教師に尋ねる代わりに、人間はマーカーと言語プロンプトを使用してタスクに関連する機能を示すことができます。
提案されたアルゴリズムであるCivilは、この増強されたデータを活用して、ロボットの視覚的観察をフィルタリングし、人間の行動を因果的に情報に因果的に伝える機能表現を抽出します。
市民は、これらの因果関係を適用して、視覚的な注意散漫に混乱することなく人間の行動をエミュレートするトランスベースのポリシーを訓練します。
私たちのシミュレーション、現実世界の実験、およびユーザー調査は、市民で訓練されたロボットが、より少ない人間のデモから学習し、特に以前に見えなかったシナリオで最先端のベースラインよりも優れたパフォーマンスを発揮できることを示しています。
プロジェクトWebサイトのビデオを参照してください:https://civil2025.github.io

要約(オリジナル)

Today’s robots learn new tasks by imitating human examples. However, this standard approach to visual imitation learning is fundamentally limited: the robot observes what the human does, but not why the human chooses those behaviors. Without understanding the features that factor into the human’s decisions, robot learners often misinterpret the data and fail to perform the task when the environment changes. We therefore propose a shift in perspective: instead of asking human teachers just to show what actions the robot should take, we also enable humans to indicate task-relevant features using markers and language prompts. Our proposed algorithm, CIVIL, leverages this augmented data to filter the robot’s visual observations and extract a feature representation that causally informs human actions. CIVIL then applies these causal features to train a transformer-based policy that emulates human behaviors without being confused by visual distractors. Our simulations, real-world experiments, and user study demonstrate that robots trained with CIVIL can learn from fewer human demonstrations and perform better than state-of-the-art baselines, especially in previously unseen scenarios. See videos at our project website: https://civil2025.github.io

arxiv情報

著者 Yinlong Dai,Robert Ramirez Sanchez,Ryan Jeronimus,Shahabedin Sagheb,Cara M. Nunez,Heramb Nemlekar,Dylan P. Losey
発行日 2025-06-03 22:05:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | CIVIL: Causal and Intuitive Visual Imitation Learning はコメントを受け付けていません

Hold My Beer: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control

要約

あなたのヒューマノイドは、滴をこぼさずに、あなたにビールを一杯手渡すことができますか?
ヒューマノイドは、踊り、パッケージの配信、荒れた地形の移動、運動中のきめの細かい制御などの派手なデモでますます紹介されていますが、依然として大きな課題です。
特に、タスクのダイナミクスの基本的な不一致のために、歩行中に充填エンドエフェクター(EE)を安定化することは解決にはほど遠いものです。Locomotionは、速い速度で堅牢な制御を要求しますが、EEの安定化には迅速で高度の高度の修正が必要です。
これに対処するために、softaを提案します。ソレッカは、上半身と下半身のコントロールを異なる周波数で動作し、異なる報酬を使用して別々のエージェントに分離する遅い速い2エージェントフレームワークであるSoftaを提案します。
この時間的および客観的な分離は、ポリシーの干渉を軽減し、調整された全身行動を可能にします。
Softaは、正確なEEコントロールの場合は100 Hzで上半身のアクションを実行し、堅牢な歩行では50 Hzで下半身のアクションを実行します。
ベースラインと比較してEE加速度を2〜5倍減らし、人間レベルの安定性にはるかに近いことで、ほぼフルカップを運ぶ、移動中の安定したビデオのキャプチャ、EEの安定性による乱れの拒絶などの繊細なタスクを可能にします。

要約(オリジナル)

Can your humanoid walk up and hand you a full cup of beer, without spilling a drop? While humanoids are increasingly featured in flashy demos like dancing, delivering packages, traversing rough terrain, fine-grained control during locomotion remains a significant challenge. In particular, stabilizing a filled end-effector (EE) while walking is far from solved, due to a fundamental mismatch in task dynamics: locomotion demands slow-timescale, robust control, whereas EE stabilization requires rapid, high-precision corrections. To address this, we propose SoFTA, a Slow-Fast Two-Agent framework that decouples upper-body and lower-body control into separate agents operating at different frequencies and with distinct rewards. This temporal and objective separation mitigates policy interference and enables coordinated whole-body behavior. SoFTA executes upper-body actions at 100 Hz for precise EE control and lower-body actions at 50 Hz for robust gait. It reduces EE acceleration by 2-5x relative to baselines and performs much closer to human-level stability, enabling delicate tasks such as carrying nearly full cups, capturing steady video during locomotion, and disturbance rejection with EE stability.

arxiv情報

著者 Yitang Li,Yuanhang Zhang,Wenli Xiao,Chaoyi Pan,Haoyang Weng,Guanqi He,Tairan He,Guanya Shi
発行日 2025-06-03 22:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Hold My Beer: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control はコメントを受け付けていません

EgoZero: Robot Learning from Smart Glasses

要約

一般的な目的のロボット工学の最近の進歩にもかかわらず、ロボットポリシーは、現実世界の基本的な人間の能力に遅れをとっています。
人間は物理的な世界と絶えず相互作用しますが、この豊富なデータリソースは、ロボット学習においてほとんど未開発のままです。
Egozeroを提案します。これは、プロジェクトAriaスマートグラス、$ \ TextBF {およびゼロロボットデータ} $でキャプチャされた人間のデモから堅牢な操作ポリシーを学習する最小限のシステムです。
egozeroが有効にする:(1)野生の、エゴセントリックな、人間のデモンストレーションからの完全なロボットに実行可能なアクションの抽出、(2)形態学的に存在する状態表現への人間の視覚観察の圧縮、および(3)形態学的、空間的、および正常に一般化する閉ループ政策学習。
グリッパーのフランカパンダロボットにエゴゼロポリシーを展開し、7つの操作タスクで70%の成功率とタスクごとに20分のデータ収集でゼロショット転送を示します。
私たちの結果は、野生の人間のデータが、現実世界のロボット学習のためのスケーラブルな基盤として役立つことを示唆しています。
コードとビデオはhttps://egozero-robot.github.ioで入手できます。

要約(オリジナル)

Despite recent progress in general purpose robotics, robot policies still lag far behind basic human capabilities in the real world. Humans interact constantly with the physical world, yet this rich data resource remains largely untapped in robot learning. We propose EgoZero, a minimal system that learns robust manipulation policies from human demonstrations captured with Project Aria smart glasses, $\textbf{and zero robot data}$. EgoZero enables: (1) extraction of complete, robot-executable actions from in-the-wild, egocentric, human demonstrations, (2) compression of human visual observations into morphology-agnostic state representations, and (3) closed-loop policy learning that generalizes morphologically, spatially, and semantically. We deploy EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of data collection per task. Our results suggest that in-the-wild human data can serve as a scalable foundation for real-world robot learning – paving the way toward a future of abundant, diverse, and naturalistic training data for robots. Code and videos are available at https://egozero-robot.github.io.

arxiv情報

著者 Vincent Liu,Ademi Adeniji,Haotian Zhan,Siddhant Haldar,Raunaq Bhirangi,Pieter Abbeel,Lerrel Pinto
発行日 2025-06-03 22:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | EgoZero: Robot Learning from Smart Glasses はコメントを受け付けていません

SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models

要約

オブジェクトの目標ナビゲーションは、具体化されたAIの基本的なタスクであり、エージェントが未開の環境でターゲットオブジェクトを見つけるように指示されます。
従来の学習ベースの方法は、大規模な注釈付きデータに大きく依存しているか、強化学習環境で環境との広範な相互作用が必要であり、多くの場合、新しい環境に一般化し、スケーラビリティを制限することができません。
これらの課題を克服するために、エージェントがタスク固有のトレーニングなしで動作するゼロショット設定を探り、よりスケーラブルで適応性のあるソリューションを可能にします。
Vision Foundationモデル(VFMS)の最近の進歩は、視覚的な理解と推論のための強力な機能を提供し、エージェントがシーンを理解し、関連する地域を特定し、オブジェクトの可能性のある場所を推測するのに理想的です。
この作業では、VFMの知覚力をフロンティア探査を通じて長老の意思決定が可能なモデルベースのプランナーと統合するゼロショットオブジェクトゴールナビゲーションフレームワークを提示します。
HM3DデータセットでのアプローチをHABTATシミュレーターを使用して評価し、ゼロショットオブジェクトの目標ナビゲーションのパス長で重み付けされた成功の観点から、この方法が最先端のパフォーマンスを達成することを実証します。

要約(オリジナル)

Object goal navigation is a fundamental task in embodied AI, where an agent is instructed to locate a target object in an unexplored environment. Traditional learning-based methods rely heavily on large-scale annotated data or require extensive interaction with the environment in a reinforcement learning setting, often failing to generalize to novel environments and limiting scalability. To overcome these challenges, we explore a zero-shot setting where the agent operates without task-specific training, enabling more scalable and adaptable solution. Recent advances in Vision Foundation Models (VFMs) offer powerful capabilities for visual understanding and reasoning, making them ideal for agents to comprehend scenes, identify relevant regions, and infer the likely locations of objects. In this work, we present a zero-shot object goal navigation framework that integrates the perceptual strength of VFMs with a model-based planner that is capable of long-horizon decision making through frontier exploration. We evaluate our approach on the HM3D dataset using the Habitat simulator and demonstrate that our method achieves state-of-the-art performance in terms of success weighted by path length for zero-shot object goal navigation.

arxiv情報

著者 Arnab Debnath,Gregory J. Stein,Jana Kosecka
発行日 2025-06-04 03:04:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models はコメントを受け付けていません

Robust Position Estimation by Rao-Blackwellized Particle Filter without Integer Ambiguity Resolution in Urban Environments

要約

この研究では、グローバルナビゲーション衛星システム(GNSS)キャリア相測定における整数の曖昧さ解像度を必要とせずに、Rao-blackwellized粒子フィルター(RBPF)を利用するセンチメートルのacccurateポジショニング方法を提案しています。
粒子フィルター(PF)を使用する従来の位置決め方法は、粒子位置に基づいてキャリア相の残差からの尤度を計算することにより、曖昧さ解像度の必要性を排除します。
ただし、この方法は、特に非表示(NLOS)マルチパスエラーを特徴とする都市環境での課題に遭遇します。
このようなシナリオでは、状態遷移に使用される速度推定精度の分解により、PF追跡が失敗する可能性があり、それによりその後の位置推定が複雑になります。
この問題に対処するために、Rao-blackwellizationを従来のPFフレームワークに適用し、位置と速度を異なる状態として扱い、速度推定のためにKalmanフィルターを使用します。
このアプローチは、速度推定の精度と、その結果、位置推定の精度を高めます。
さらに、提案された方法は、速度推定ステップ中に各粒子位置での擬似型残差に基づいてNLOSマルチパス信号を拒否します。
このプロセスは、速度の精度を向上させるだけでなく、速度がさまざまな速度で粒子が一意の状態に移行できるようにすることにより、粒子の多様性を維持します。
したがって、粒子は真の位置に集中する可能性が高く、それにより、より正確な位置推定を可能にします。
都市環境での車両実験により、従来のPFベースおよび従来のGNSS位置決め方法よりも高い位置決め精度を達成する上で提案された方法の有効性が示されました。

要約(オリジナル)

This study proposes a centimeter-accurate positioning method that utilizes a Rao-Blackwellized particle filter (RBPF) without requiring integer ambiguity resolution in global navigation satellite system (GNSS) carrier phase measurements. The conventional positioning method employing a particle filter (PF) eliminates the necessity for ambiguity resolution by calculating the likelihood from the residuals of the carrier phase based on the particle position. However, this method encounters challenges, particularly in urban environments characterized by non-line-of-sight (NLOS) multipath errors. In such scenarios, PF tracking may fail due to the degradation of velocity estimation accuracy used for state transitions, thereby complicating subsequent position estimation. To address this issue, we apply Rao-Blackwellization to the conventional PF framework, treating position and velocity as distinct states and employing the Kalman filter for velocity estimation. This approach enhances the accuracy of velocity estimation and, consequently, the precision of position estimation. Moreover, the proposed method rejects NLOS multipath signals based on the pseudorange residuals at each particle position during the velocity estimation step. This process not only enhances velocity accuracy, but also preserves particle diversity by allowing particles to transition to unique states with varying velocities. Consequently, particles are more likely to cluster around the true position, thereby enabling more accurate position estimation. Vehicular experiments in urban environments demonstrated the effectiveness of proposed method in achieving a higher positioning accuracy than conventional PF-based and conventional GNSS positioning methods.

arxiv情報

著者 Daiki Niimi,An Fujino,Taro Suzuki,Junichi Meguro
発行日 2025-06-04 03:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robust Position Estimation by Rao-Blackwellized Particle Filter without Integer Ambiguity Resolution in Urban Environments はコメントを受け付けていません

SCOPE: Stochastic Cartographic Occupancy Prediction Engine for Uncertainty-Aware Dynamic Navigation

要約

この記事では、モバイルロボットが複雑な動的環境の将来の状態を予測できるようにする確率的地図作成予測予測エンジン(SCOPES)のファミリーを紹介します。
彼らは、ロボット自体の動き、動的オブジェクトの動き、シーン内の静的オブジェクトのジオメトリを説明することでこれを行い、環境の将来の状態の可能性のある範囲を生成します。
これらの予測エンジンは、混雑した動的シーンでのナビゲーションのためのリアルタイムパフォーマンスのためにソフトウェアを最適化し、他の最先端のエンジンよりも最大89倍の推論速度と8倍のメモリ使用量を達成します。
さまざまなロボットモデルによって収集された3つのシミュレーションおよび実際のデータセットを使用して、これらの提案された予測アルゴリズムが他のアルゴリズムよりも正確で堅牢な確率的予測パフォーマンスを実現できることを実証します。
さらに、一連のシミュレーションおよびハードウェアナビゲーション実験により、これらの確率的予測エンジンを使用した予測不確実性を認める予測ナビゲーションフレームワークが、現在の最先端モデルおよび学習ベースの制御ポリシーの安全なナビゲーションパフォーマンスを改善できることが示されています。

要約(オリジナル)

This article presents a family of Stochastic Cartographic Occupancy Prediction Engines (SCOPEs) that enable mobile robots to predict the future states of complex dynamic environments. They do this by accounting for the motion of the robot itself, the motion of dynamic objects, and the geometry of static objects in the scene, and they generate a range of possible future states of the environment. These prediction engines are software-optimized for real-time performance for navigation in crowded dynamic scenes, achieving up to 89 times faster inference speed and 8 times less memory usage than other state-of-the-art engines. Three simulated and real-world datasets collected by different robot models are used to demonstrate that these proposed prediction algorithms are able to achieve more accurate and robust stochastic prediction performance than other algorithms. Furthermore, a series of simulation and hardware navigation experiments demonstrate that the proposed predictive uncertainty-aware navigation framework with these stochastic prediction engines is able to improve the safe navigation performance of current state-of-the-art model- and learning-based control policies.

arxiv情報

著者 Zhanteng Xie,Philip Dames
発行日 2025-06-04 03:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SCOPE: Stochastic Cartographic Occupancy Prediction Engine for Uncertainty-Aware Dynamic Navigation はコメントを受け付けていません

From Virtual Agents to Robot Teams: A Multi-Robot Framework Evaluation in High-Stakes Healthcare Context

要約

生成モデルの進歩により、マルチエージェントシステム(MAS)は、物理的なマルチエージェントロボットチームに適切に一般化されていないライティングやコード生成などの複雑な仮想タスクを実行することができました。
現在のフレームワークは、多くの場合、エージェントを物理的に具体化されたエンティティではなく概念的なタスクエグゼクタとして扱い、空間コンテキスト、ロボット機能(センシング、ナビゲーションなど)などの重要な現実世界の制約を見落としています。
このギャップを調査するために、シミュレートされた救急部門のオンボーディングシナリオで、Crewaiフレームワークに基づいて構築された階層的なマルチエージェントロボットチームを再構成してストレステストします。
5つの永続的な障害モードを特定します。役割の不整合。
ツールアクセス違反。
失敗レポートの時間内処理の欠如。
規定されたワークフローへの違反。
タスク完了のバイパスまたは誤った報告。
この分析に基づいて、プロセスの透明性、プロアクティブな障害回復、および文脈上の接地を強調する3つの設計ガイドラインを提案します。
私たちの作品は、仮想マルチエージェントフレームワークを現実の世界に拡張する機会を含む、より回復力のある堅牢なマルチエージェントロボットシステム(MARS)の開発を知らせます。

要約(オリジナル)

Advancements in generative models have enabled multi-agent systems (MAS) to perform complex virtual tasks such as writing and code generation, which do not generalize well to physical multi-agent robotic teams. Current frameworks often treat agents as conceptual task executors rather than physically embodied entities, and overlook critical real-world constraints such as spatial context, robotic capabilities (e.g., sensing and navigation). To probe this gap, we reconfigure and stress-test a hierarchical multi-agent robotic team built on the CrewAI framework in a simulated emergency department onboarding scenario. We identify five persistent failure modes: role misalignment; tool access violations; lack of in-time handling of failure reports; noncompliance with prescribed workflows; bypassing or false reporting of task completion. Based on this analysis, we propose three design guidelines emphasizing process transparency, proactive failure recovery, and contextual grounding. Our work informs the development of more resilient and robust multi-agent robotic systems (MARS), including opportunities to extend virtual multi-agent frameworks to the real world.

arxiv情報

著者 Yuanchen Bai,Zijian Ding,Angelique Taylor
発行日 2025-06-04 04:05:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | From Virtual Agents to Robot Teams: A Multi-Robot Framework Evaluation in High-Stakes Healthcare Context はコメントを受け付けていません

Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving

要約

自律運転は、モビリティ、交通安全、交通効率の重要な進歩を約束しますが、補強学習と模倣学習は、安全な探求と流通シフトの課題に直面しています。
人間とのコラボレーションはこれらの問題を軽減しますが、多くの場合、大規模な人間の介入に大きく依存しており、コストを増加させ、効率を削減します。
このペーパーでは、これらの制限を克服するための自信に基づいたヒューマンアイコラボレーション(C-HAC)戦略を開発します。
まず、C-HACは、分布ソフトアクタークリティック(DSAC)フレームワーク内で分布プロキシ値伝播法を採用しています。
人間の意図を表すためにリターン分布を活用することにより、C-HACは、人間の相互作用を最小限に抑えて、人間誘導政策の迅速かつ安定した学習を達成します。
その後、共有制御メカニズムが活性化され、学習した人間誘導ポリシーを累積報酬を最大化する自己学習ポリシーと統合します。
これにより、エージェントは、人間のガイダンスを超えてパフォーマンスを独立して継続的に向上させることができます。
最後に、ポリシー信頼評価アルゴリズムは、DSACのリターンディストリビューションネットワークを活用して、信頼に基づく介入関数を介して人間誘導と自己学習ポリシーの動的な切り替えを促進します。
これにより、エージェントは安全性とパフォーマンスの保証を維持しながら、最適なポリシーを追求できます。
多様な運転シナリオ全体の広範な実験により、C-HACは、安全性、効率性、および全体的なパフォーマンスの点で従来の方法を大幅に上回り、最先端の結果を達成することが明らかになりました。
提案された方法の有効性は、複雑な交通条件での実際の道路試験を通じてさらに検証されます。
ビデオとコードは、https://github.com/lzqw/c-hacで入手できます。

要約(オリジナル)

Autonomous driving promises significant advancements in mobility, road safety and traffic efficiency, yet reinforcement learning and imitation learning face safe-exploration and distribution-shift challenges. Although human-AI collaboration alleviates these issues, it often relies heavily on extensive human intervention, which increases costs and reduces efficiency. This paper develops a confidence-guided human-AI collaboration (C-HAC) strategy to overcome these limitations. First, C-HAC employs a distributional proxy value propagation method within the distributional soft actor-critic (DSAC) framework. By leveraging return distributions to represent human intentions C-HAC achieves rapid and stable learning of human-guided policies with minimal human interaction. Subsequently, a shared control mechanism is activated to integrate the learned human-guided policy with a self-learning policy that maximizes cumulative rewards. This enables the agent to explore independently and continuously enhance its performance beyond human guidance. Finally, a policy confidence evaluation algorithm capitalizes on DSAC’s return distribution networks to facilitate dynamic switching between human-guided and self-learning policies via a confidence-based intervention function. This ensures the agent can pursue optimal policies while maintaining safety and performance guarantees. Extensive experiments across diverse driving scenarios reveal that C-HAC significantly outperforms conventional methods in terms of safety, efficiency, and overall performance, achieving state-of-the-art results. The effectiveness of the proposed method is further validated through real-world road tests in complex traffic conditions. The videos and code are available at: https://github.com/lzqw/C-HAC.

arxiv情報

著者 Li Zeqiao,Wang Yijing,Wang Haoyu,Li Zheng,Li Peng,Zuo zhiqiang,Hu Chuan
発行日 2025-06-04 04:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving はコメントを受け付けていません

SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models

要約

動的環境に展開されたロボットは、多様な言語の指示に従うだけでなく、ユーザーの意図が解釈の中で変更されたときに柔軟に適応できる必要があります。
最近のVision-Language-action(VLA)モデルには、マルチタスクの学習と指示に続いて高度なものがありますが、通常、静的タスクの意図を想定しており、継続的な実行中に新しい指示が届いたときに応答できません。
この制限は、リアルタイムの意図の変更が一般的な小売や家庭環境など、動的な設定での自然で堅牢な相互作用を妨げます。
外部プランナーまたは追加のスイッチ固有のデータなしでスムーズでリアクティブなタスクの切り替えを可能にする統一された実行アウェアフレームワークであるSwitchVLAを提案します。
タスクの切り替えを、実行状態と命令のコンテキストを条件とする動作変調問題としてモデル化します。
専門家のデモンストレーションは、一時的に接地された接触フェーズに分割され、ポリシーがタスクの進行を推測し、それに応じて動作を調整できるようにします。
次に、条件付けられた軌道モデリングを通じて、さまざまな動作モードの下で柔軟なアクションチャンクを生成するために、多目的条件付きポリシーが訓練されます。
シミュレーションと現実世界のロボット操作の両方での実験により、SwitchVLAは、タスクの成功率と相互作用の自然性の両方で、堅牢な命令の順守、流体タスクの切り替え、および以前のVLAベースラインを強化することを可能にすることが示されています。

要約(オリジナル)

Robots deployed in dynamic environments must be able to not only follow diverse language instructions but flexibly adapt when user intent changes mid-execution. While recent Vision-Language-Action (VLA) models have advanced multi-task learning and instruction following, they typically assume static task intent, failing to respond when new instructions arrive during ongoing execution. This limitation hinders natural and robust interaction in dynamic settings, such as retail or household environments, where real-time intent changes are common. We propose SwitchVLA, a unified, execution-aware framework that enables smooth and reactive task switching without external planners or additional switch-specific data. We model task switching as a behavior modulation problem conditioned on execution state and instruction context. Expert demonstrations are segmented into temporally grounded contact phases, allowing the policy to infer task progress and adjust its behavior accordingly. A multi-behavior conditional policy is then trained to generate flexible action chunks under varying behavior modes through conditioned trajectory modeling. Experiments in both simulation and real-world robotic manipulation demonstrate that SwitchVLA enables robust instruction adherence, fluid task switching, and strong generalization-outperforming prior VLA baselines in both task success rate and interaction naturalness.

arxiv情報

著者 Meng Li,Zhen Zhao,Zhengping Che,Fei Liao,Kun Wu,Zhiyuan Xu,Pei Ren,Zhao Jin,Ning Liu,Jian Tang
発行日 2025-06-04 04:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models はコメントを受け付けていません

SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting

要約

毎日の環境で一般的な明確なオブジェクトの再構築は、拡張/仮想現実とロボット工学のアプリケーションにとって重要です。
ただし、既存の方法は、スケーラビリティの制限(3Dの監督または費用のかかる注釈が必要)、堅牢性の問題(ローカルオプティマの影響を受けやすい)、およびレンダリングの欠点(速度またはフォトリアリズムの欠如)に直面しています。
3Dガウススプラッティング(3DG)を活用して関節を再構築し、さまざまな関節状態でキャプチャされた2セットのポーズRGB画像から運動学を推測する自己監督のカテゴリに依存しないフレームワークであるSplartを紹介します。
Splartは、ガウスあたりの微分可能なモビリティパラメーターで3DGを増強し、洗練された部分セグメンテーションを達成します。
複数段階の最適化戦略が採用され、再構築、部分セグメンテーション、および関節の推定を徐々に処理し、堅牢性と精度を大幅に向上させます。
Splartは、幾何学的な自己監視を活用し、3Dアノテーションやカテゴリ固有の事前には必要なく、挑戦的なシナリオに効果的に対処します。
確立され、新しく提案されたベンチマークに関する評価は、ハンドヘルドRGBカメラを使用した実際のシナリオへのアプリケーションで、Splartの最先端のパフォーマンスと実世界の実用性を示しています。
コードはhttps://github.com/ripl/splartで公開されています。

要約(オリジナル)

Reconstructing articulated objects prevalent in daily environments is crucial for applications in augmented/virtual reality and robotics. However, existing methods face scalability limitations (requiring 3D supervision or costly annotations), robustness issues (being susceptible to local optima), and rendering shortcomings (lacking speed or photorealism). We introduce SplArt, a self-supervised, category-agnostic framework that leverages 3D Gaussian Splatting (3DGS) to reconstruct articulated objects and infer kinematics from two sets of posed RGB images captured at different articulation states, enabling real-time photorealistic rendering for novel viewpoints and articulations. SplArt augments 3DGS with a differentiable mobility parameter per Gaussian, achieving refined part segmentation. A multi-stage optimization strategy is employed to progressively handle reconstruction, part segmentation, and articulation estimation, significantly enhancing robustness and accuracy. SplArt exploits geometric self-supervision, effectively addressing challenging scenarios without requiring 3D annotations or category-specific priors. Evaluations on established and newly proposed benchmarks, along with applications to real-world scenarios using a handheld RGB camera, demonstrate SplArt’s state-of-the-art performance and real-world practicality. Code is publicly available at https://github.com/ripl/splart.

arxiv情報

著者 Shengjie Lin,Jiading Fang,Muhammad Zubair Irshad,Vitor Campagnolo Guizilini,Rares Andrei Ambrus,Greg Shakhnarovich,Matthew R. Walter
発行日 2025-06-04 05:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM, cs.RO | SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting はコメントを受け付けていません