Robust Model-Based In-Hand Manipulation with Integrated Real-Time Motion-Contact Planning and Tracking

要約

複数の指が動的に行い、接触を破壊するロボットの器用な操作は、実際のロボットアプリケーションにおける人間のような器用さへの一歩を表しています。
特定のタスクごとに大規模なトレーニングや広範なデータ収集に依存する学習ベースのアプローチとは異なり、モデルベースの方法は効率的な選択肢を提供します。
彼らのオンラインコンピューティングの性質により、大規模な再訓練なしに、新しいタスクへの準備が整ったアプリケーションが可能になります。
ただし、物理的な接触の複雑さにより、既存のモデルベースの方法は、効率的なオンライン計画とモデリングエラーの処理において課題に遭遇し、実用的なアプリケーションを制限します。
このペーパーでは、モデルベースの接触豊富な接触操作の有効性と堅牢性を促進するために、これらの制限を軽減する新しい統合フレームワークを提案します。
統合には、2つの重要な側面が含まれます。1)階層構造によって達成される統合リアルタイム計画と追跡。
2)統合されたモーションコンタクトモデリングによって達成される動きと連絡先の共同最適化。
具体的には、高レベルでは、指の動きと接触力の参照が接触モデルの予測制御を使用して共同で生成されます。
高レベルのモジュールは、リアルタイムの計画と妨害の回復を促進します。
低レベルでは、これらの統合された参照は、ハンドフォースモーションモデルと実際の触覚フィードバックを使用して同時に追跡されます。
低レベルのモジュールは、モデリングエラーを補正し、操作の堅牢性を高めます。
広範な実験は、私たちのアプローチが、精度、堅牢性、およびリアルタイムのパフォーマンスの点で既存のモデルベースの方法よりも優れていることを示しています。
私たちの方法は、かなりの外乱の下でさえ、実際の環境で5つの挑戦的なタスクを正常に完了します。

要約(オリジナル)

Robotic dexterous in-hand manipulation, where multiple fingers dynamically make and break contact, represents a step toward human-like dexterity in real-world robotic applications. Unlike learning-based approaches that rely on large-scale training or extensive data collection for each specific task, model-based methods offer an efficient alternative. Their online computing nature allows for ready application to new tasks without extensive retraining. However, due to the complexity of physical contacts, existing model-based methods encounter challenges in efficient online planning and handling modeling errors, which limit their practical applications. To advance the effectiveness and robustness of model-based contact-rich in-hand manipulation, this paper proposes a novel integrated framework that mitigates these limitations. The integration involves two key aspects: 1) integrated real-time planning and tracking achieved by a hierarchical structure; and 2) joint optimization of motions and contacts achieved by integrated motion-contact modeling. Specifically, at the high level, finger motion and contact force references are jointly generated using contact-implicit model predictive control. The high-level module facilitates real-time planning and disturbance recovery. At the low level, these integrated references are concurrently tracked using a hand force-motion model and actual tactile feedback. The low-level module compensates for modeling errors and enhances the robustness of manipulation. Extensive experiments demonstrate that our approach outperforms existing model-based methods in terms of accuracy, robustness, and real-time performance. Our method successfully completes five challenging tasks in real-world environments, even under appreciable external disturbances.

arxiv情報

著者 Yongpeng Jiang,Mingrui Yu,Xinghao Zhu,Masayoshi Tomizuka,Xiang Li
発行日 2025-05-08 06:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robust Model-Based In-Hand Manipulation with Integrated Real-Time Motion-Contact Planning and Tracking はコメントを受け付けていません

LVLM-MPC Collaboration for Autonomous Driving: A Safety-Aware and Task-Scalable Control Architecture

要約

このペーパーでは、自律運転(AD)のタスクのスケーラビリティと安全性の両方を提供する、新しい大型ビジョン言語モデル(LVLM)およびモデル予測制御(MPC)統合フレームワークを提案します。
LVLMSは、多様な運転シナリオ全体で高レベルのタスク計画に優れています。
ただし、これらの基礎モデルは運転用に特別に設計されておらず、その推論は低レベルのモーション計画の実現可能性と一致していないため、安全性とスムーズなタスクの切り替えに関する懸念は残っています。
このホワイトペーパーでは、LVLMSをMPCビルダーと統合します。MPCビルダーは、LVLMによって生成されたシンボリックタスクコマンドに基づいて、最適性と安全性を確保しながら、MPCをオンデマンドで自動的に生成します。
生成されたMPCは、指定されたタスクの実現可能性に関するフィードバックを提供し、タスクスイッチを認識したMPCを生成することにより、LVLM駆動型タスクスイッチングの実行または拒否を強く支援できます。
私たちのアプローチは、安全で柔軟で適応性のある制御フレームワークを提供し、最先端の基礎モデルと信頼できる車両操作とのギャップを埋めます。
シミュレーション実験を通じてアプローチの有効性を実証し、LVLMSの柔軟性と適応性を維持しながら、システムが高速道路の運転を安全かつ効果的に処理できることを示しています。

要約(オリジナル)

This paper proposes a novel Large Vision-Language Model (LVLM) and Model Predictive Control (MPC) integration framework that delivers both task scalability and safety for Autonomous Driving (AD). LVLMs excel at high-level task planning across diverse driving scenarios. However, since these foundation models are not specifically designed for driving and their reasoning is not consistent with the feasibility of low-level motion planning, concerns remain regarding safety and smooth task switching. This paper integrates LVLMs with MPC Builder, which automatically generates MPCs on demand, based on symbolic task commands generated by the LVLM, while ensuring optimality and safety. The generated MPCs can strongly assist the execution or rejection of LVLM-driven task switching by providing feedback on the feasibility of the given tasks and generating task-switching-aware MPCs. Our approach provides a safe, flexible, and adaptable control framework, bridging the gap between cutting-edge foundation models and reliable vehicle operation. We demonstrate the effectiveness of our approach through a simulation experiment, showing that our system can safely and effectively handle highway driving while maintaining the flexibility and adaptability of LVLMs.

arxiv情報

著者 Kazuki Atsuta,Kohei Honda,Hiroyuki Okuda,Tatsuya Suzuki
発行日 2025-05-08 06:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | LVLM-MPC Collaboration for Autonomous Driving: A Safety-Aware and Task-Scalable Control Architecture はコメントを受け付けていません

A Vehicle System for Navigating Among Vulnerable Road Users Including Remote Operation

要約

歩行者やサイクリストなど、脆弱な道路利用者(VRU)を中心に安全かつ効率的にナビゲートできる車両システムを紹介します。
このシステムは、プロトタイプ車両に統合された環境認識、ローカリゼーションとマッピング、モーション計画、および制御のための重要なモジュールで構成されています。
重要なイノベーションは、トポロジ駆動型モデル予測制御(T-MPC)に基づくモーションプランナーです。
ガイダンスレイヤーは、それぞれが障害物回避または非パスのための明確な戦略を表している並行して複数の軌跡を生成します。
基礎となる軌跡の最適化は、一般的な不確実性の下でのVRUとの衝突の共同確率を制約します。
建設ゾーンや緊急対応者との出会いなどの自律能力を超える並外れた状況(「エッジケース」)に対処するために、このシステムには、視覚的および触覚ガイダンスによってサポートされるリモートヒト操作のオプションが含まれています。
シミュレーションでは、モーションプランナーは、安全性と効率の観点から3つのベースラインアプローチを上回ります。
また、自律モードとリモートで動作したモードの両方で、閉じたトラックでのプロトタイプ車両テストの完全なシステムを実証します。

要約(オリジナル)

We present a vehicle system capable of navigating safely and efficiently around Vulnerable Road Users (VRUs), such as pedestrians and cyclists. The system comprises key modules for environment perception, localization and mapping, motion planning, and control, integrated into a prototype vehicle. A key innovation is a motion planner based on Topology-driven Model Predictive Control (T-MPC). The guidance layer generates multiple trajectories in parallel, each representing a distinct strategy for obstacle avoidance or non-passing. The underlying trajectory optimization constrains the joint probability of collision with VRUs under generic uncertainties. To address extraordinary situations (‘edge cases’) that go beyond the autonomous capabilities – such as construction zones or encounters with emergency responders – the system includes an option for remote human operation, supported by visual and haptic guidance. In simulation, our motion planner outperforms three baseline approaches in terms of safety and efficiency. We also demonstrate the full system in prototype vehicle tests on a closed track, both in autonomous and remotely operated modes.

arxiv情報

著者 Oscar de Groot,Alberto Bertipaglia,Hidde Boekema,Vishrut Jain,Marcell Kegl,Varun Kotian,Ted Lentsch,Yancong Lin,Chrysovalanto Messiou,Emma Schippers,Farzam Tajdari,Shiming Wang,Zimin Xia,Mubariz Zaffar,Ronald Ensing,Mario Garzon,Javier Alonso-Mora,Holger Caesar,Laura Ferranti,Riender Happee,Julian F. P. Kooij,Georgios Papaioannou,Barys Shyrokau,Dariu M. Gavrila
発行日 2025-05-08 06:39:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Vehicle System for Navigating Among Vulnerable Road Users Including Remote Operation はコメントを受け付けていません

CPP-DIP: Multi-objective Coverage Path Planning for MAVs in Dispersed and Irregular Plantations

要約

カバレッジパス計画(CPP)は、効率とリソースの利用を改善するために、精密な農業において不可欠です。
不規則で分散したプランテーションでは、伝統的なグリッドベースのCPPは、しばしば、非植生地域で冗長なカバレッジを引き起こし、廃棄物と汚染につながります。
これらの制限を克服するために、マイクロエアビークル(MAV)向けに設計された多目的CPPフレームワークであるCPP-DIPを提案します。
このフレームワークは、CPPタスクを巡回セールスマンの問題(TSP)に変換し、移動距離を最小限に抑え、角度を回す、交差するカウントを最小限に抑えます。
従来のアプローチとは異なり、私たちの方法はGPSベースの環境モデリングに依存していません。
代わりに、空中画像と、配向勾配(HOG)ベースのアプローチのヒストグラムを使用して、木を検出し、画像座標を抽出します。
密度認識ウェイポイント戦略が適用されます。カーネル密度推定(KDE)は、密な地域の冗長なウェイポイントを減らすために使用されますが、貪欲なアルゴリズムはまばらな領域で完全なカバレッジを保証します。
フレームワークの一般性を検証するために、貪欲なヒューリスティック挿入(GHI)、ANTコロニー最適化(ACO)、およびモンテカルロ補強学習(MCRL)の3つの異なる方法を使用して、結果のTSPを解決します。
次に、結果のパスをさらに改善するために、オブジェクトベースの最適化が適用されます。
さらに、CPP-DIPは、正確なツリーのローカリゼーションと追跡のために、昆虫にインスパイアされたナビゲーション法であるForanavを統合します。
実験結果は、MCRLがバランスの取れたソリューションを提供し、GHIと同様のパフォーマンスを維持しながら、ACOと比較して移動距離を16.9%減らすことを示しています。
また、ACOとGHIと比較して、回転角度をそれぞれ28.3%と59.9%減少させることにより、パスの滑らかさを改善し、交差点を効果的に排除します。
これらの結果は、異なるTSPソルバーのCPP-DIPの堅牢性と有効性を確認します。

要約(オリジナル)

Coverage Path Planning (CPP) is vital in precision agriculture to improve efficiency and resource utilization. In irregular and dispersed plantations, traditional grid-based CPP often causes redundant coverage over non-vegetated areas, leading to waste and pollution. To overcome these limitations, we propose CPP-DIP, a multi-objective CPP framework designed for Micro Air Vehicles (MAVs). The framework transforms the CPP task into a Traveling Salesman Problem (TSP) and optimizes flight paths by minimizing travel distance, turning angles, and intersection counts. Unlike conventional approaches, our method does not rely on GPS-based environmental modeling. Instead, it uses aerial imagery and a Histogram of Oriented Gradients (HOG)-based approach to detect trees and extract image coordinates. A density-aware waypoint strategy is applied: Kernel Density Estimation (KDE) is used to reduce redundant waypoints in dense regions, while a greedy algorithm ensures complete coverage in sparse areas. To verify the generality of the framework, we solve the resulting TSP using three different methods: Greedy Heuristic Insertion (GHI), Ant Colony Optimization (ACO), and Monte Carlo Reinforcement Learning (MCRL). Then an object-based optimization is applied to further refine the resulting path. Additionally, CPP-DIP integrates ForaNav, our insect-inspired navigation method, for accurate tree localization and tracking. The experimental results show that MCRL offers a balanced solution, reducing the travel distance by 16.9 % compared to ACO while maintaining a similar performance to GHI. It also improves path smoothness by reducing turning angles by 28.3 % and 59.9 % relative to ACO and GHI, respectively, and effectively eliminates intersections. These results confirm the robustness and effectiveness of CPP-DIP in different TSP solvers.

arxiv情報

著者 Weijie Kuang,Hann Woei Ho,Ye Zhou
発行日 2025-05-08 06:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CPP-DIP: Multi-objective Coverage Path Planning for MAVs in Dispersed and Irregular Plantations はコメントを受け付けていません

CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations

要約

模倣学習を使用したロボットポリシーの学習には、トレーニングデータの規模を根本的に制限する大量の費用のかかるアクション標識専門家デモを収集する必要があります。
このボトルネックに対処するための有望なアプローチは、ビデオデモンストレーションから、潜在的な方法で潜在的なアクションラベルを学ぶために、豊富な非標識観察を活用することです。
ただし、既存の方法は、きめの細かい動きを必要とする複雑なロボットタスクに適用すると闘っていることがわかります。
私たちは、非標識観測データから複雑な連続制御タスクを解決するために必要だと思われる2つの重要な成分を組み込んだ連続潜在アクションモデル(CLAM)を設計します。
重要なことに、ラベル付けされた例は、最適ではないプレイデータから収集でき、アクションに標識された専門家データにアクセスすることなく、クラムがパフォーマンスのポリシーを学習できるようにすることができます。
DMControl(移動)およびMetaWorld(操作)の連続制御ベンチマーク、および魅力的な最先端の方法を大幅に上回るReal Widowx Robot Armで実証します。
ビデオとコードはclamrobot.github.ioで見つけることができます。

要約(オリジナル)

Learning robot policies using imitation learning requires collecting large amounts of costly action-labeled expert demonstrations, which fundamentally limits the scale of training data. A promising approach to address this bottleneck is to harness the abundance of unlabeled observations-e.g., from video demonstrations-to learn latent action labels in an unsupervised way. However, we find that existing methods struggle when applied to complex robot tasks requiring fine-grained motions. We design continuous latent action models (CLAM) which incorporate two key ingredients we find necessary for learning to solve complex continuous control tasks from unlabeled observation data: (a) using continuous latent action labels instead of discrete representations, and (b) jointly training an action decoder to ensure that the latent action space can be easily grounded to real actions with relatively few labeled examples. Importantly, the labeled examples can be collected from non-optimal play data, enabling CLAM to learn performant policies without access to any action-labeled expert data. We demonstrate on continuous control benchmarks in DMControl (locomotion) and MetaWorld (manipulation), as well as on a real WidowX robot arm that CLAM significantly outperforms prior state-of-the-art methods, remarkably with a 2-3x improvement in task success rate compared to the best baseline. Videos and code can be found at clamrobot.github.io.

arxiv情報

著者 Anthony Liang,Pavel Czempin,Matthew Hong,Yutai Zhou,Erdem Biyik,Stephen Tu
発行日 2025-05-08 07:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations はコメントを受け付けていません

Deployment-friendly Lane-changing Intention Prediction Powered by Brain-inspired Spiking Neural Networks

要約

周囲の車両の車線変更意図の正確かつリアルタイムの予測は、オープンワールドシナリオに安全で効率的な自律駆動システムを展開する上で重要な課題です。
既存の高性能な方法は、計算コストが高い、トレーニング時間が長く、過度のメモリ要件があるため、展開が困難です。
ここでは、脳に触発されたスパイクニューラルネットワーク(SNN)に基づいた効率的な車線変更意図予測アプローチを提案します。
SNNのイベント駆動型の性質を活用することにより、提案されたアプローチにより、車両の状態をより効率的にエンコードすることができます。
HighDおよびNGSIMデータセットで実施された比較実験は、この方法がトレーニング効率を大幅に改善し、同等の予測精度を維持しながら展開コストを削減することを示しています。
特に、ベースラインと比較して、当社のアプローチにより、トレーニング時間が75%減少し、メモリの使用量が99.9%短縮されます。
これらの結果は、車線を変える予測における方法の効率と信頼性を検証し、安全で効率的な自律駆動システムの可能性を強調し、トレーニング時間の短縮、メモリ使用量の削減、より速い推論など、展開に大きな利点を提供します。

要約(オリジナル)

Accurate and real-time prediction of surrounding vehicles’ lane-changing intentions is a critical challenge in deploying safe and efficient autonomous driving systems in open-world scenarios. Existing high-performing methods remain hard to deploy due to their high computational cost, long training times, and excessive memory requirements. Here, we propose an efficient lane-changing intention prediction approach based on brain-inspired Spiking Neural Networks (SNN). By leveraging the event-driven nature of SNN, the proposed approach enables us to encode the vehicle’s states in a more efficient manner. Comparison experiments conducted on HighD and NGSIM datasets demonstrate that our method significantly improves training efficiency and reduces deployment costs while maintaining comparable prediction accuracy. Particularly, compared to the baseline, our approach reduces training time by 75% and memory usage by 99.9%. These results validate the efficiency and reliability of our method in lane-changing predictions, highlighting its potential for safe and efficient autonomous driving systems while offering significant advantages in deployment, including reduced training time, lower memory usage, and faster inference.

arxiv情報

著者 Shuqi Shen,Junjie Yang,Hui Zhong,Hongliang Lu,Xinhu Zheng,Hai Yang
発行日 2025-05-08 07:11:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Deployment-friendly Lane-changing Intention Prediction Powered by Brain-inspired Spiking Neural Networks はコメントを受け付けていません

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

要約

サウンドソースのローカリゼーション(SSL)、サウンドソース分離(SSS)、および自動音声認識(ASR)を含むロボットオーディションにより、ロボットとスマートデバイスは人間の聴覚と同様の聴覚機能を獲得できます。
幅広い適用性にもかかわらず、SSLのマイクアレイからのマルチチャネルオーディオ信号の処理には、計算集中的なマトリックス操作が含まれます。これは、特にCPUリソースが限られている埋め込まれたシステムで、中央処理ユニット(CPU)で効率的な展開を妨げる可能性があります。
このペーパーでは、ロボットオーディション用のSSLのGPUベースの実装を紹介します。これは、一般化された特異値分解ベースのマルチシグナル分類(GSVD-Music)であり、ノイズ – ロバストアルゴリズムであるHarkプラットフォーム内で、オープンソースソフトウェアスイートです。
60チャンネルのマイクアレイの場合、提案された実装は大幅なパフォーマンスの改善を達成します。
NVIDIA GPUおよびARM Cortex-A78AE V8.2 64ビットCPUを搭載した埋め込まれたデバイスであるJetson AGX Orinでは、GSVD計算のために5648.7xのスピードアップ、SSLモジュールのSSLモジュールの10.7xのスピードアップ、SSL Modubleの4245.1xの4245.1xのスピードアップが観察されます。
NVIDIA A100 GPUおよびAMD EPYC 7352 CPUを使用して、大規模なマイクアレイでリアルタイム処理を実行可能にし、潜在的なその後の機械学習またはディープラーニングタスクのリアルタイム処理のための十分な能力を提供します。

要約(オリジナル)

Robot audition, encompassing Sound Source Localization (SSL), Sound Source Separation (SSS), and Automatic Speech Recognition (ASR), enables robots and smart devices to acquire auditory capabilities similar to human hearing. Despite their wide applicability, processing multi-channel audio signals from microphone arrays in SSL involves computationally intensive matrix operations, which can hinder efficient deployment on Central Processing Units (CPUs), particularly in embedded systems with limited CPU resources. This paper introduces a GPU-based implementation of SSL for robot audition, utilizing the Generalized Singular Value Decomposition-based Multiple Signal Classification (GSVD-MUSIC), a noise-robust algorithm, within the HARK platform, an open-source software suite. For a 60-channel microphone array, the proposed implementation achieves significant performance improvements. On the Jetson AGX Orin, an embedded device powered by an NVIDIA GPU and ARM Cortex-A78AE v8.2 64-bit CPUs, we observe speedups of 5648.7x for GSVD calculations and 10.7x for the SSL module, while speedups of 4245.1x for GSVD calculation and 17.3x for the entire SSL module on a server configured with an NVIDIA A100 GPU and AMD EPYC 7352 CPUs, making real-time processing feasible for large-scale microphone arrays and providing ample capacity for real-time processing of potential subsequent machine learning or deep learning tasks.

arxiv情報

著者 Zirui Lin,Masayuki Takigahira,Naoya Terakado,Haris Gulzar,Monikka Roslianna Busto,Takeharu Eda,Katsutoshi Itoyama,Kazuhiro Nakadai,Hideharu Amano
発行日 2025-05-08 07:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD, eess.AS | An Efficient GPU-based Implementation for Noise Robust Sound Source Localization はコメントを受け付けていません

LUDO: Low-Latency Understanding of Deformable Objects using Point Cloud Occupancy Functions

要約

オブジェクトの形状と変形可能なオブジェクト内の内部構造の位置を正確に決定することは、ロボット生検などの正確なターゲティングを必要とする医療タスクにとって重要です。
変形可能なオブジェクトの正確な低遅延理解の方法であるLudoを紹介します。
Ludoは、占有ネットワークを使用して30ミリ秒未満の単一ビューポイントクラウド観測から、内部構造を含む変形状態のオブジェクトを再構築します。
Ludoは、その予測の不確実性の推定値を提供します。
さらに、入力観測の主要な機能を強調することにより、説明可能性を提供します。
不確実性と説明可能性の両方は、外科的介入などの安全性の高いアプリケーションにとって重要です。
変形可能なオブジェクトにおける関心のある内部領域(ROI)の自律的なターゲティングに対するLudoの能力を示します。
現実世界のロボット実験でLUDOを評価し、変形可能なオブジェクト内でさまざまなROIに穴を開けるために98.9%の成功率を達成します。
Ludoは、変形可能な登録方法を必要とせずに、変形可能なオブジェクトと相互作用する可能性を実証しています。

要約(オリジナル)

Accurately determining the shape of objects and the location of their internal structures within deformable objects is crucial for medical tasks that require precise targeting, such as robotic biopsies. We introduce LUDO, a method for accurate low-latency understanding of deformable objects. LUDO reconstructs objects in their deformed state, including their internal structures, from a single-view point cloud observation in under 30 ms using occupancy networks. LUDO provides uncertainty estimates for its predictions. Additionally, it provides explainability by highlighting key features in its input observations. Both uncertainty and explainability are important for safety-critical applications such as surgical interventions. We demonstrate LUDO’s abilities for autonomous targeting of internal regions of interest (ROIs) in deformable objects. We evaluate LUDO in real-world robotic experiments, achieving a success rate of 98.9% for puncturing various ROIs inside deformable objects. LUDO demonstrates the potential to interact with deformable objects without the need for deformable registration methods.

arxiv情報

著者 Pit Henrich,Franziska Mathis-Ullrich,Paul Maria Scheikl
発行日 2025-05-08 07:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LUDO: Low-Latency Understanding of Deformable Objects using Point Cloud Occupancy Functions はコメントを受け付けていません

SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning

要約

脚のあるロボットの学習ベースのコントローラーの最近の進歩にもかかわらず、人間中心の環境への展開は安全性の懸念によって制限されたままです。
これらのアプローチのほとんどは、ポジションベースのコントロールを使用します。ポリシーは、低レベルのコントローラー(PDやインピーダンスコントローラーなど)によって処理する必要があるジョイントアングルをターゲットに出力して、ジョイントトルクを計算します。
制御された現実世界のシナリオでは印象的な結果が達成されていますが、これらの方法は、トレーニング中に目にされていない環境や乱れに遭遇するときにコンプライアンスと適応性に苦労し、極端または安全でない行動をもたらす可能性があります。
トルクベースのポリシーは、筋肉の伸びと収縮を制御することにより動物が滑らかで適応的な動きを達成する方法に触発され、トルク空間でアクチュエーターを正確かつ直接的に制御できるようにすることにより、有望な代替手段を提供します。
原則として、このアプローチは環境とのより効果的な相互作用を促進し、より安全で適応性のある行動をもたらします。
ただし、非常に非線形の状態空間やトレーニング中の非効率的な調査などの課題により、より広範な採用が妨げられています。
これらの制限に対処するために、動物の移動で観察される重要な生体力学的原理と適応学習メカニズムを模倣するバイオ風のフレームワークであるSATAを提案します。
当社のアプローチは、初期段階の探索を大幅に改善し、高性能の最終ポリシーにつながることにより、トルクベースのポリシーを学習するという固有の課題に効果的に対処しています。
驚くべきことに、私たちの方法はゼロショットSIMからリアルへの転送を達成します。
私たちの実験結果は、SATAが柔らかい/滑りやすい地形や狭い箇所などの挑戦的な環境でさえ、顕著な外乱の下でも、顕著なコンプライアンスと安全性を示しており、人間中心および安全性の高いシナリオにおける実用的な展開の可能性を強調していることを示しています。

要約(オリジナル)

Despite recent advances in learning-based controllers for legged robots, deployments in human-centric environments remain limited by safety concerns. Most of these approaches use position-based control, where policies output target joint angles that must be processed by a low-level controller (e.g., PD or impedance controllers) to compute joint torques. Although impressive results have been achieved in controlled real-world scenarios, these methods often struggle with compliance and adaptability when encountering environments or disturbances unseen during training, potentially resulting in extreme or unsafe behaviors. Inspired by how animals achieve smooth and adaptive movements by controlling muscle extension and contraction, torque-based policies offer a promising alternative by enabling precise and direct control of the actuators in torque space. In principle, this approach facilitates more effective interactions with the environment, resulting in safer and more adaptable behaviors. However, challenges such as a highly nonlinear state space and inefficient exploration during training have hindered their broader adoption. To address these limitations, we propose SATA, a bio-inspired framework that mimics key biomechanical principles and adaptive learning mechanisms observed in animal locomotion. Our approach effectively addresses the inherent challenges of learning torque-based policies by significantly improving early-stage exploration, leading to high-performance final policies. Remarkably, our method achieves zero-shot sim-to-real transfer. Our experimental results indicate that SATA demonstrates remarkable compliance and safety, even in challenging environments such as soft/slippery terrain or narrow passages, and under significant external disturbances, highlighting its potential for practical deployments in human-centric and safety-critical scenarios.

arxiv情報

著者 Peizhuo Li,Hongyi Li,Ge Sun,Jin Cheng,Xinrong Yang,Guillaume Bellegarda,Milad Shafiee,Yuhong Cao,Auke Ijspeert,Guillaume Sartoretti
発行日 2025-05-08 07:48:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning はコメントを受け付けていません

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

要約

幾何学的に正確で意味的に表現力のある地図表現は、堅牢で安全なモバイルロボットナビゲーションとタスク計画を促進するために非常に貴重であることが証明されています。
それにもかかわらず、大規模な未知の環境のリアルタイムのオープンボキャブラリーセマンティック理解は、依然としてオープンな問題です。
このペーパーでは、視覚言語情報を密集した体積サブマップに組み込んだオープンワールドマッピングおよび探索フレームワークであるFindanythingを紹介します。
ビジョン言語機能の使用のおかげで、Findanythingは、純粋な幾何学的な意味情報と、より高いレベルの理解のための純粋な幾何学的セマンティック情報のギャップを橋渡ししながら、グラウンドトゥルースのポーズ情報の外部ソースの助けを借りずに環境を探索できます。
環境を一連の体積占有サブマップとして表し、基礎となるスラムシステムがドリフトを修正したときにポーズ更新時に変形する堅牢で正確なマップ表現をもたらし、サブマップ間の局所的に一貫した表現を可能にします。
ピクセルごとのビジョン言語機能は、効率的なSAM(ESAM)生成セグメントから集計されており、オブジェクト中心の体積サブマップに統合され、オープンボキャブラリークエリからメモリ使用量の面でもスケーラブルな3Dジオメトリまでのマッピングを提供します。
Findanythingのオープンボキャブラリーマップ表現は、レプリカデータセットのクローズドセット評価で最先端のセマンティック精度を実現します。
このレベルのシーン理解により、ロボットは、自然言語クエリを介して選択されたオブジェクトまたは関心のある領域に基づいて環境を探索できます。
私たちのシステムは、MAVSなどのリソース制約のあるデバイスに展開されたこの種の最初のものであり、実際のロボットタスクのビジョン言語情報を活用しています。

要約(オリジナル)

Geometrically accurate and semantically expressive map representations have proven invaluable to facilitate robust and safe mobile robot navigation and task planning. Nevertheless, real-time, open-vocabulary semantic understanding of large-scale unknown environments is still an open problem. In this paper we present FindAnything, an open-world mapping and exploration framework that incorporates vision-language information into dense volumetric submaps. Thanks to the use of vision-language features, FindAnything bridges the gap between pure geometric and open-vocabulary semantic information for a higher level of understanding while allowing to explore any environment without the help of any external source of ground-truth pose information. We represent the environment as a series of volumetric occupancy submaps, resulting in a robust and accurate map representation that deforms upon pose updates when the underlying SLAM system corrects its drift, allowing for a locally consistent representation between submaps. Pixel-wise vision-language features are aggregated from efficient SAM (eSAM)-generated segments, which are in turn integrated into object-centric volumetric submaps, providing a mapping from open-vocabulary queries to 3D geometry that is scalable also in terms of memory usage. The open-vocabulary map representation of FindAnything achieves state-of-the-art semantic accuracy in closed-set evaluations on the Replica dataset. This level of scene understanding allows a robot to explore environments based on objects or areas of interest selected via natural language queries. Our system is the first of its kind to be deployed on resource-constrained devices, such as MAVs, leveraging vision-language information for real-world robotic tasks.

arxiv情報

著者 Sebastián Barbas Laina,Simon Boche,Sotiris Papatheodorou,Simon Schaefer,Jaehyung Jung,Stefan Leutenegger
発行日 2025-05-08 08:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment はコメントを受け付けていません