Can Pretrained Vision-Language Embeddings Alone Guide Robot Navigation?

要約

ファンデーションモデルは、タスク固有のトレーニングなしで豊富なセマンティック表現を提供することにより、ロボット工学に革命をもたらしました。
多くのアプローチでは、前処理されたビジョン言語モデル(VLMS)を専門のナビゲーションアーキテクチャと統合しますが、基本的な問題は残ります。これらの前処理された埋め込みだけで、追加の微調整や特殊なモジュールなしでナビゲーションをうまくガイドできますか?
私たちは、特権の専門家によって収集されたデモンストレーションからの凍結ビジョン言語の埋め込みに関する行動クローンを直接トレーニングすることにより、この質問を切り離すミニマリストのフレームワークを提示します。
私たちのアプローチは、国家認識の専門家の100%と比較して、言語指定された目標へのナビゲーションで74%の成功率を達成しますが、平均で3.2倍のステップを必要とします。
このパフォーマンスのギャップは、前処理された埋め込みが基本的な言語の接地を効果的にサポートしているが、長期の計画と空間的推論に苦労していることを明らかにしています。
この経験的ベースラインを提供することにより、基礎モデルを具体化されたタスクのドロップイン表現として使用する能力と制限の両方を強調し、リソースが制約されたシナリオでのシステムの複雑さとパフォーマンスの間の実用的なデザイントレードオフに直面しているロボット工学研究者に重要な洞察を提供します。
私たちのコードは、https://github.com/oadamharoon/text2navで入手できます

要約(オリジナル)

Foundation models have revolutionized robotics by providing rich semantic representations without task-specific training. While many approaches integrate pretrained vision-language models (VLMs) with specialized navigation architectures, the fundamental question remains: can these pretrained embeddings alone successfully guide navigation without additional fine-tuning or specialized modules? We present a minimalist framework that decouples this question by training a behavior cloning policy directly on frozen vision-language embeddings from demonstrations collected by a privileged expert. Our approach achieves a 74% success rate in navigation to language-specified targets, compared to 100% for the state-aware expert, though requiring 3.2 times more steps on average. This performance gap reveals that pretrained embeddings effectively support basic language grounding but struggle with long-horizon planning and spatial reasoning. By providing this empirical baseline, we highlight both the capabilities and limitations of using foundation models as drop-in representations for embodied tasks, offering critical insights for robotics researchers facing practical design tradeoffs between system complexity and performance in resource-constrained scenarios. Our code is available at https://github.com/oadamharoon/text2nav

arxiv情報

著者 Nitesh Subedi,Adam Haroon,Shreyan Ganguly,Samuel T. K. Tetteh,Prajwal Koirala,Cody Fleming,Soumik Sarkar
発行日 2025-06-17 13:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Can Pretrained Vision-Language Embeddings Alone Guide Robot Navigation? はコメントを受け付けていません

AssistantX: An LLM-Powered Proactive Assistant in Collaborative Human-Populated Environment

要約

現在のサービスロボットは、限られた自然言語コミュニケーション能力、事前定義されたコマンドへの依存、継続的な人間の介入、特に人間人口の環境での積極的なコラボレーション認識の欠如に悩まされています。
これにより、適用性が狭くなり、ユーティリティが低くなります。
このペーパーでは、RealWorldシナリオで自動運転用に設計されたLLM駆動のプロアクティブなアシスタントであるAssistnXを紹介します。
AssistantXは、4つの専門LLMエージェントで構成されるマルチエージェントフレームワークを採用しています。それぞれが、認識、計画、意思決定、および反射的レビューに専念し、高度な推論機能と包括的なコラボレーション認識を促進します。
AssistantXを検証するための210の実世界のタスクのデータセットを作成しました。これには、関連する人員が利用可能かどうかに関する命令コンテンツとステータス情報が含まれます。
1か月半にわたって、テキストベースのシミュレーションと実際のオフィス環境の両方で広範な実験が行われました。
私たちの実験は、提案されたフレームワークの有効性を実証し、AssistantXがユーザーの指示に反応的に応答し、偶発性に適応するために戦略を積極的に調整し、タスクの完了を確実に確保するために人間からの支援を積極的に求めることができることを示しています。
詳細とビデオは、https:// AssistantX-Agentをご覧ください。
github.io/assistantx/。

要約(オリジナル)

Current service robots suffer from limited natural language communication abilities, heavy reliance on predefined commands, ongoing human intervention, and, most notably, a lack of proactive collaboration awareness in human-populated environments. This results in narrow applicability and low utility. In this paper, we introduce AssistantX, an LLM-powered proactive assistant designed for autonomous operation in realworld scenarios with high accuracy. AssistantX employs a multi-agent framework consisting of 4 specialized LLM agents, each dedicated to perception, planning, decision-making, and reflective review, facilitating advanced inference capabilities and comprehensive collaboration awareness, much like a human assistant by your side. We built a dataset of 210 real-world tasks to validate AssistantX, which includes instruction content and status information on whether relevant personnel are available. Extensive experiments were conducted in both text-based simulations and a real office environment over the course of a month and a half. Our experiments demonstrate the effectiveness of the proposed framework, showing that AssistantX can reactively respond to user instructions, actively adjust strategies to adapt to contingencies, and proactively seek assistance from humans to ensure successful task completion. More details and videos can be found at https://assistantx-agent. github.io/AssistantX/.

arxiv情報

著者 Nan Sun,Bo Mao,Yongchang Li,Di Guo,Huaping Liu
発行日 2025-06-17 13:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | AssistantX: An LLM-Powered Proactive Assistant in Collaborative Human-Populated Environment はコメントを受け付けていません

NetRoller: Interfacing General and Specialized Models for End-to-End Autonomous Driving

要約

大規模な言語モデル(LLM)などの一般的なモデル(GM)を統合すると、自律運転タスクの特殊なモデル(SMS)は、既存の特殊な運転モデル​​のデータ多様性とモデル能力の課題を軽減するための有望なアプローチを提示します。
ただし、この統合は非同期システムの問題につながります。これは、GMSとSMSに固有の明確な特性から生じる。
この課題に取り組むために、GMSと特殊な運転モデル​​のシームレスな統合を促進するための一連の新しいメカニズムを組み込んだアダプターであるNetRollerを提案します。
具体的には、非同期GMとSMSをインターフェースするためのメカニズムは、3つの重要な段階に編成されています。
Netrollerは、最初に、早期​​停止メカニズムを使用してLLMの推論プロセスから意味的に豊富で計算効率の高い表現を収穫します。
次に、堅牢で効率的なクロスモダリティ翻訳を容易にするために、学習可能なクエリエンミング、無意味な埋め込み、および位置層埋め込みを適用します。
最後に、計算上効率の良いクエリシフトと機能シフトメカニズムを使用して、少数のエポックの微調整を通じてSMSのパフォーマンスを向上させます。
これら3つの段階で正式化されたメカニズムに基づいて、NetRollerは、GMの状況認識を維持しながら、専門的な運転モデル​​をネイティブ周波数で動作させることができます。
Nuscenes Datasetで実施された実験は、Netrollerを介したGMを統合することで、計画タスクの人間の類似性と安全性が大幅に向上することを示しており、エンドツーエンドの自律運転のための検出とマッピングタスクの顕著な精度の改善も実現します。
コードとモデルは、https://github.com/rex-sys-hk/netrollerで入手できます。

要約(オリジナル)

Integrating General Models (GMs) such as Large Language Models (LLMs), with Specialized Models (SMs) in autonomous driving tasks presents a promising approach to mitigating challenges in data diversity and model capacity of existing specialized driving models. However, this integration leads to problems of asynchronous systems, which arise from the distinct characteristics inherent in GMs and SMs. To tackle this challenge, we propose NetRoller, an adapter that incorporates a set of novel mechanisms to facilitate the seamless integration of GMs and specialized driving models. Specifically, our mechanisms for interfacing the asynchronous GMs and SMs are organized into three key stages. NetRoller first harvests semantically rich and computationally efficient representations from the reasoning processes of LLMs using an early stopping mechanism, which preserves critical insights on driving context while maintaining low overhead. It then applies learnable query embeddings, nonsensical embeddings, and positional layer embeddings to facilitate robust and efficient cross-modality translation. At last, it employs computationally efficient Query Shift and Feature Shift mechanisms to enhance the performance of SMs through few-epoch fine-tuning. Based on the mechanisms formalized in these three stages, NetRoller enables specialized driving models to operate at their native frequencies while maintaining situational awareness of the GM. Experiments conducted on the nuScenes dataset demonstrate that integrating GM through NetRoller significantly improves human similarity and safety in planning tasks, and it also achieves noticeable precision improvements in detection and mapping tasks for end-to-end autonomous driving. The code and models are available at https://github.com/Rex-sys-hk/NetRoller .

arxiv情報

著者 Ren Xin,Hongji Liu,Xiaodong Mei,Wenru Liu,Maosheng Ye,Zhili Chen,Jun Ma
発行日 2025-06-17 14:52:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | NetRoller: Interfacing General and Specialized Models for End-to-End Autonomous Driving はコメントを受け付けていません

Latent Action Diffusion for Cross-Embodiment Manipulation

要約

エンドツーエンドの学習アプローチは、ロボット操作の大きな可能性を提供しますが、それらの影響は、さまざまな実施形態にわたるデータの希少性と不均一性によって制約されます。
特に、異なるエンドエフェクターにわたる多様なアクションスペースは、拡大した学習とスキル移転の障壁を生み出します。
この課題には、多様なエンドエフェクターアクションを統合する潜在的なアクション空間で学んだ拡散ポリシーを通じて対処します。
まず、擬人化されたロボットの手、人間の手、および対照的な損失で訓練されたエンコーダーを使用した平行顎グリッパーのための意味的に整列した潜在的なアクション空間を学ぶことができることを示します。
第二に、提案された潜在的なアクションスペースを使用して、異なるエンドエフェクターからの操作データを共同訓練するために、マルチロボット制御のために単一のポリシーを利用して、最大13%の操作成功率を改善することができることを示しています。
潜在的な交差体ポリシーを使用した私たちのアプローチは、実施形態全体で異なるアクション空間を統一するための新しい方法を提示し、ロボットセットアップ全体で効率的なマルチロボット制御とデータ共有を可能にします。
この統一された表現は、新しいロボットの形態ごとに広範なデータ収集の必要性を大幅に削減し、実施形態全体で一般化を加速し、最終的によりスケーラブルで効率的なロボット学習を促進します。

要約(オリジナル)

End-to-end learning approaches offer great potential for robotic manipulation, but their impact is constrained by data scarcity and heterogeneity across different embodiments. In particular, diverse action spaces across different end-effectors create barriers for cross-embodiment learning and skill transfer. We address this challenge through diffusion policies learned in a latent action space that unifies diverse end-effector actions. We first show that we can learn a semantically aligned latent action space for anthropomorphic robotic hands, a human hand, and a parallel jaw gripper using encoders trained with a contrastive loss. Second, we show that by using our proposed latent action space for co-training on manipulation data from different end-effectors, we can utilize a single policy for multi-robot control and obtain up to 13% improved manipulation success rates, indicating successful skill transfer despite a significant embodiment gap. Our approach using latent cross-embodiment policies presents a new method to unify different action spaces across embodiments, enabling efficient multi-robot control and data sharing across robot setups. This unified representation significantly reduces the need for extensive data collection for each new robot morphology, accelerates generalization across embodiments, and ultimately facilitates more scalable and efficient robotic learning.

arxiv情報

著者 Erik Bauer,Elvis Nava,Robert K. Katzschmann
発行日 2025-06-17 15:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Latent Action Diffusion for Cross-Embodiment Manipulation はコメントを受け付けていません

Factor-Graph-Based Passive Acoustic Navigation for Decentralized Cooperative Localization Using Bearing Elevation Depth Difference

要約

正確でスケーラブルな水中マルチエージェントのローカリゼーションは、水中通信の制約のため、依然として重大な課題です。
この作業では、ベアリング、標高、深さの差(BEDD)を組み込んだ因子表現を使用して、マルチエージェントローカリゼーションフレームワークを提案します。
私たちの方法は、自律的な水上車両(AUV)のマルチロボットチームの協調的なローカリゼーションを可能にするために、入ってくる音響信号と相対深度測定からの逆ウルトラショートベースライン(反転-USBL)由来の方位角および標高測定を活用します。
AUVの艦隊を使用して、Holoooseanの水中シミュレーターでのアプローチを検証し、Dead Reckoningと比較して局所化の精度が向上したことを示しています。
さらに、方位角と標高の測定外れ値の影響を調査し、音響信号の堅牢な外れ値除去技術の必要性を強調します。

要約(オリジナル)

Accurate and scalable underwater multi-agent localization remains a critical challenge due to the constraints of underwater communication. In this work, we propose a multi-agent localization framework using a factor-graph representation that incorporates bearing, elevation, and depth difference (BEDD). Our method leverages inverted ultra-short baseline (inverted-USBL) derived azimuth and elevation measurements from incoming acoustic signals and relative depth measurements to enable cooperative localization for a multi-robot team of autonomous underwater vehicles (AUVs). We validate our approach in the HoloOcean underwater simulator with a fleet of AUVs, demonstrating improved localization accuracy compared to dead reckoning. Additionally, we investigate the impact of azimuth and elevation measurement outliers, highlighting the need for robust outlier rejection techniques for acoustic signals.

arxiv情報

著者 Kalliyan Velasco,Timothy W. McLain,Joshua G. Mangelson
発行日 2025-06-17 16:28:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Factor-Graph-Based Passive Acoustic Navigation for Decentralized Cooperative Localization Using Bearing Elevation Depth Difference はコメントを受け付けていません

AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions

要約

ビジョン言語モデル(VLM)の急速な進歩と具体化されたエージェントへの統合により、意思決定の強力な能力が解除されました。
ただし、これらのシステムは実際の環境でますます展開されているため、特に危険な指示に対応する場合、安全性の懸念事項に直面しています。
この作業では、危険な指示の下で具体化されたVLMエージェントの安全性を評価するための最初の包括的なベンチマークであるAgentsafeを提案します。
AgentsAfeは、シミュレーションサンドボックス内の現実的なエージェントと環境の相互作用をシミュレートし、高レベルのVLM出力と低レベルの具体化されたコントロールの間のギャップを埋める新しいアダプターモジュールを組み込んでいます。
具体的には、視覚エンティティを操作可能なオブジェクトに対して認識した視覚エンティティをマップし、抽象計画を環境で実行可能な原子アクションに変換します。
これに基づいて、Asimovsに触発されたリスク認識データセットを構築します。これには、基本的なリスクのある指示や変異したJailbroken Instructionsなど、3つのロボット工学の法律があります。
ベンチマークには、45の敵対的なシナリオ、1,350の危険タスク、8,100の危険な指示が含まれ、知覚、計画、および行動の実行段階に及ぶ敵対的条件下での体系的なテストを可能にします。

要約(オリジナル)

The rapid advancement of vision-language models (VLMs) and their integration into embodied agents have unlocked powerful capabilities for decision-making. However, as these systems are increasingly deployed in real-world environments, they face mounting safety concerns, particularly when responding to hazardous instructions. In this work, we propose AGENTSAFE, the first comprehensive benchmark for evaluating the safety of embodied VLM agents under hazardous instructions. AGENTSAFE simulates realistic agent-environment interactions within a simulation sandbox and incorporates a novel adapter module that bridges the gap between high-level VLM outputs and low-level embodied controls. Specifically, it maps recognized visual entities to manipulable objects and translates abstract planning into executable atomic actions in the environment. Building on this, we construct a risk-aware instruction dataset inspired by Asimovs Three Laws of Robotics, including base risky instructions and mutated jailbroken instructions. The benchmark includes 45 adversarial scenarios, 1,350 hazardous tasks, and 8,100 hazardous instructions, enabling systematic testing under adversarial conditions ranging from perception, planning, and action execution stages.

arxiv情報

著者 Aishan Liu,Zonghao Ying,Le Wang,Junjie Mu,Jinyang Guo,Jiakai Wang,Yuqing Ma,Siyuan Liang,Mingchuan Zhang,Xianglong Liu,Dacheng Tao
発行日 2025-06-17 16:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.RO | AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions はコメントを受け付けていません

LBAP: Improved Uncertainty Alignment of LLM Planners using Bayesian Inference

要約

大規模な言語モデル(LLMS)は、インテリジェントで役立つロボットの多くの望ましい特性を紹介します。
ただし、予測を幻覚させることも知られています。
この問題は、LLMの幻覚により、ロボットがユーザーの目標に反したり、人間の援助に頻繁に依存したりする計画を自信を持って実行する可能性のあるロボット工学で悪化しています。
この作業では、幻覚と人間の介入を最小限に抑えるロボットプランナーの不確実性のアライメントに対するベイジアン推論とともに、既製のLLMSを利用するための新しいアプローチであるLBAPを提示します。
私たちの重要な発見は、ベイジアン推論を使用して、シーンの接地と世界の知識の両方を考慮して、ロボットの信頼測定値をより正確に調整できることです。
このプロセスにより、幻覚を軽減し、LLMの信頼測定値を成功の確率に合わせてより適切に整合することができます。
さまざまなあいまいさのあるタスクでのシミュレーションと現実世界の両方の実験を通じて、LBAPは成功率を大幅に増加させ、以前のARTと比較して必要な人間の介入の量を減らすことを示しています。
たとえば、実際のテストパラダイムでは、LBAPは、70%の成功率で以前の方法の人間のヘルプ率を33%以上減少させます。

要約(オリジナル)

Large language models (LLMs) showcase many desirable traits for intelligent and helpful robots. However, they are also known to hallucinate predictions. This issue is exacerbated in robotics where LLM hallucinations may result in robots confidently executing plans that are contrary to user goals or relying more frequently on human assistance. In this work, we present LBAP, a novel approach for utilizing off-the-shelf LLMs, alongside Bayesian inference for uncertainty Alignment in robotic Planners that minimizes hallucinations and human intervention. Our key finding is that we can use Bayesian inference to more accurately calibrate a robots confidence measure through accounting for both scene grounding and world knowledge. This process allows us to mitigate hallucinations and better align the LLM’s confidence measure with the probability of success. Through experiments in both simulation and the real world on tasks with a variety of ambiguities, we show that LBAP significantly increases success rate and decreases the amount of human intervention required relative to prior art. For example, in our real-world testing paradigm, LBAP decreases the human help rate of previous methods by over 33% at a success rate of 70%.

arxiv情報

著者 James F. Mullen Jr.,Dinesh Manocha
発行日 2025-06-17 17:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LBAP: Improved Uncertainty Alignment of LLM Planners using Bayesian Inference はコメントを受け付けていません

Tactile Beyond Pixels: Multisensory Touch Representations for Robot Manipulation

要約

画像、音声、モーション、圧力の4つの触覚モダリティにわたる最初の多感覚タッチ表現であるSparsh-Xを紹介します。
Digit 36​​0センサーで収集された〜1mの接触豊富な相互作用でトレーニングされたSparsh-Xは、多様な時間的および空間スケールで補完的なタッチ信号をキャプチャします。
Sparsh-Xは、自己科学の学習を活用することにより、これらのモダリティを、ロボット操作タスクに役立つ物理的特性をキャプチャする統一表現に融合します。
SIMトレーニングを受けたポリシーの模倣学習と触覚的適応の両方の現実世界のタッチ表現を効果的に統合する方法を研究します。SPARSH-Xは、タッチからオブジェクト状態を回収する際に触覚画像を使用してエンドツーエンドモデルでポリシーの成功率を63%増加させ、エンドツーエンドモデルで63%増加させることを示しています。
最後に、オブジェクトアクションの識別、材料と量の推定、力の推定など、物理的特性について推論するSPARSH-X能力をベンチマークします。
SPARSH-Xは、エンドツーエンドのアプローチと比較して、物理的特性を48%の特性評価の精度を向上させ、巧妙な操作に不可欠な機能をキャプチャするための多感覚前削除の利点を示しています。

要約(オリジナル)

We present Sparsh-X, the first multisensory touch representations across four tactile modalities: image, audio, motion, and pressure. Trained on ~1M contact-rich interactions collected with the Digit 360 sensor, Sparsh-X captures complementary touch signals at diverse temporal and spatial scales. By leveraging self-supervised learning, Sparsh-X fuses these modalities into a unified representation that captures physical properties useful for robot manipulation tasks. We study how to effectively integrate real-world touch representations for both imitation learning and tactile adaptation of sim-trained policies, showing that Sparsh-X boosts policy success rates by 63% over an end-to-end model using tactile images and improves robustness by 90% in recovering object states from touch. Finally, we benchmark Sparsh-X ability to make inferences about physical properties, such as object-action identification, material-quantity estimation, and force estimation. Sparsh-X improves accuracy in characterizing physical properties by 48% compared to end-to-end approaches, demonstrating the advantages of multisensory pretraining for capturing features essential for dexterous manipulation.

arxiv情報

著者 Carolina Higuera,Akash Sharma,Taosha Fan,Chaithanya Krishna Bodduluri,Byron Boots,Michael Kaess,Mike Lambeta,Tingfan Wu,Zixi Liu,Francois Robert Hogan,Mustafa Mukadam
発行日 2025-06-17 17:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Tactile Beyond Pixels: Multisensory Touch Representations for Robot Manipulation はコメントを受け付けていません

RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skills

要約

ツールデザインの能力を備えたロボットを支えることは、そうでなければ手に負えない複雑な操作タスクを解決できるために重要です。
最近の生成フレームワークは、3Dシーンや報酬機能などのタスク設定を自動的に合成できますが、ツール使用シナリオの課題にまだ対処していません。
ロボットマニピュレーターが処理するのが難しいため、人間が設計したツールを単純に取得することは理想的ではないかもしれません。
さらに、既存のツール設計アプローチは、限られたパラメーターチューニングを備えた事前定義されたテンプレートに依存するか、ツールの作成に最適化されていない一般的な3D生成方法を適用します。
これらの制限に対処するために、ロボット操作のためにツールを設計および使用するために物理シミュレーションによって提供されるより正確な物理学とともに、ビジョン言語モデル(VLM)に埋め込まれた暗黙の物理的知識を活用する自動化されたパイプラインであるロボットスミスを提案します。
私たちのシステム(1)コラボレーティブVLMエージェントを使用してツール設計を繰り返し提案し、(2)ツール使用のための低レベルのロボット軌道を生成し、(3)タスクパフォ​​ーマンスのためにツールジオメトリと使用を共同で最適化します。
剛性、変形、流体のオブジェクトを含む幅広い操作タスクにわたるアプローチを評価します。
実験は、私たちの方法が、タスクの成功率と全体的なパフォーマンスの両方の観点から、強力なベースラインよりも一貫して優れていることを示しています。
特に、私たちのアプローチは50.0 \%の平均成功率を達成し、3D世代(21.4%)やツール検索(11.1%)などの他のベースラインを大幅に超えています。
最後に、システムを現実世界の設定に展開し、生成されたツールとその使用計画が物理的実行に効果的に転送され、アプローチの実用性と一般化能力を検証することを実証します。

要約(オリジナル)

Endowing robots with tool design abilities is critical for enabling them to solve complex manipulation tasks that would otherwise be intractable. While recent generative frameworks can automatically synthesize task settings, such as 3D scenes and reward functions, they have not yet addressed the challenge of tool-use scenarios. Simply retrieving human-designed tools might not be ideal since many tools (e.g., a rolling pin) are difficult for robotic manipulators to handle. Furthermore, existing tool design approaches either rely on predefined templates with limited parameter tuning or apply generic 3D generation methods that are not optimized for tool creation. To address these limitations, we propose RobotSmith, an automated pipeline that leverages the implicit physical knowledge embedded in vision-language models (VLMs) alongside the more accurate physics provided by physics simulations to design and use tools for robotic manipulation. Our system (1) iteratively proposes tool designs using collaborative VLM agents, (2) generates low-level robot trajectories for tool use, and (3) jointly optimizes tool geometry and usage for task performance. We evaluate our approach across a wide range of manipulation tasks involving rigid, deformable, and fluid objects. Experiments show that our method consistently outperforms strong baselines in terms of both task success rate and overall performance. Notably, our approach achieves a 50.0\% average success rate, significantly surpassing other baselines such as 3D generation (21.4%) and tool retrieval (11.1%). Finally, we deploy our system in real-world settings, demonstrating that the generated tools and their usage plans transfer effectively to physical execution, validating the practicality and generalization capabilities of our approach.

arxiv情報

著者 Chunru Lin,Haotian Yuan,Yian Wang,Xiaowen Qiu,Tsun-Hsuan Wang,Minghao Guo,Bohan Wang,Yashraj Narang,Dieter Fox,Chuang Gan
発行日 2025-06-17 17:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skills はコメントを受け付けていません

GMT: General Motion Tracking for Humanoid Whole-Body Control

要約

現実の世界で全身の一般的な動きを追跡する能力は、一般的なヒューマノイドロボットを構築するための便利な方法です。
ただし、これを達成することは、動きの時間的および運動学的多様性、ポリシーの能力、および上部および下の体の調整の難しさのために困難な場合があります。
これらの問題に対処するために、ヒューマノイドロボットが現実世界の多様な動きを追跡できるようにするための単一の統一ポリシーを訓練する一般的かつスケーラブルなモーション追跡フレームワークであるGMTを提案します。
GMTは、2つのコアコンポーネントの上に構築されています。適応サンプリング戦略とモーション混合物(MOE)アーキテクチャです。
適応サンプリングは、トレーニング中に簡単で困難な動きのバランスを自動的にバランスさせます。
MOEは、運動マニホールドのさまざまな領域のより良い専門化を保証します。
シミュレーションと現実世界の両方で広範な実験を通じてGMTの有効性を示し、統一された一般ポリシーを使用した幅広い動きにわたって最先端のパフォーマンスを達成します。
ビデオと追加情報は、https://gmt-humanoid.github.ioにあります。

要約(オリジナル)

The ability to track general whole-body motions in the real world is a useful way to build general-purpose humanoid robots. However, achieving this can be challenging due to the temporal and kinematic diversity of the motions, the policy’s capability, and the difficulty of coordination of the upper and lower bodies. To address these issues, we propose GMT, a general and scalable motion-tracking framework that trains a single unified policy to enable humanoid robots to track diverse motions in the real world. GMT is built upon two core components: an Adaptive Sampling strategy and a Motion Mixture-of-Experts (MoE) architecture. The Adaptive Sampling automatically balances easy and difficult motions during training. The MoE ensures better specialization of different regions of the motion manifold. We show through extensive experiments in both simulation and the real world the effectiveness of GMT, achieving state-of-the-art performance across a broad spectrum of motions using a unified general policy. Videos and additional information can be found at https://gmt-humanoid.github.io.

arxiv情報

著者 Zixuan Chen,Mazeyu Ji,Xuxin Cheng,Xuanbin Peng,Xue Bin Peng,Xiaolong Wang
発行日 2025-06-17 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GMT: General Motion Tracking for Humanoid Whole-Body Control はコメントを受け付けていません