LEMON-Mapping: Loop-Enhanced Large-Scale Multi-Session Point Cloud Merging and Optimization for Globally Consistent Mapping

要約

マルチロボットコラボレーションはますます重要になりつつあり、特にグローバルに一貫した正確なマップを構築するために、現代のロボット工学に大きな課題を提示しています。
従来のマルチロボットポーズグラフ最適化(PGO)メソッドは、基本的なグローバルな一貫性を確保しますが、マップの幾何学的構造を無視し、ポーズノード間の制約としてループクロージャーのみを使用して、重複する領域での発散とぼやけにつながります。
この問題に対処するために、大規模でマルチセッションポイントクラウドの融合と最適化のためのループ強化フレームワークであるレモンマッピングを提案します。
マルチロボットマッピングのループの役割を再検討し、3つの重要なイノベーションを導入します。
まず、外れ値と誤って削除されたが有効なループを回復するためのループリコール戦略を拒否する堅牢なループ処理メカニズムを開発します。
次に、マルチロボットマップの空間バンドル調整を導入し、発散を減らし、オーバーラップでぼやけを排除します。
第三に、洗練されたバンドル調整の制約を活用して、地図全体にローカルの精度を伝播するPGOベースのアプローチを設計します。
いくつかのパブリックデータセットと自己収集データセットでレモンマッピングを検証します。
実験結果は、従来のマージ方法と比較して、優れたマッピングの精度とフレームワークのグローバルな一貫性を示しています。
スケーラビリティ実験は、多数のロボットを含むシナリオを処理する強力な能力も示しています。

要約(オリジナル)

Multi-robot collaboration is becoming increasingly critical and presents significant challenges in modern robotics, especially for building a globally consistent, accurate map. Traditional multi-robot pose graph optimization (PGO) methods ensure basic global consistency but ignore the geometric structure of the map, and only use loop closures as constraints between pose nodes, leading to divergence and blurring in overlapping regions. To address this issue, we propose LEMON-Mapping, a loop-enhanced framework for large-scale, multi-session point cloud fusion and optimization. We re-examine the role of loops for multi-robot mapping and introduce three key innovations. First, we develop a robust loop processing mechanism that rejects outliers and a loop recall strategy to recover mistakenly removed but valid loops. Second, we introduce spatial bundle adjustment for multi-robot maps, reducing divergence and eliminating blurring in overlaps. Third, we design a PGO-based approach that leverages refined bundle adjustment constraints to propagate local accuracy to the entire map. We validate LEMON-Mapping on several public datasets and a self-collected dataset. The experimental results show superior mapping accuracy and global consistency of our framework compared to traditional merging methods. Scalability experiments also demonstrate its strong capability to handle scenarios involving numerous robots.

arxiv情報

著者 Lijie Wang,Xiaoyi Zhong,Ziyi Xu,Kaixin Chai,Anke Zhao,Tianyu Zhao,Changjian Jiang,Qianhao Wang,Fei Gao
発行日 2025-06-04 06:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LEMON-Mapping: Loop-Enhanced Large-Scale Multi-Session Point Cloud Merging and Optimization for Globally Consistent Mapping はコメントを受け付けていません

Zero-Shot Temporal Interaction Localization for Egocentric Videos

要約

ビデオ内のヒューマンオブジェクト相互作用(HOI)アクションを見つけることは、人間の行動分析や人間のロボットスキル移転など、複数の下流タスクの基礎として機能します。
現在の時間的アクションローカリゼーション方法は、通常、注釈付きアクションとオブジェクトの相互作用のオブジェクトカテゴリに依存して、ドメインバイアスと低い展開効率につながります。
いくつかの最近の作品では、大きな視覚言語モデル(VLMS)を使用してゼロショットの時間的アクションローカリゼーション(ZS-TAL)を達成しましたが、それらの粗粒化推定とオープンループパイプラインは、時間的相互作用の局在化のためのさらなるパフォーマンスの改善(TIL)を妨げています。
これらの問題に対処するために、エゴロックと呼ばれる新しいゼロショットのアプローチを提案して、エゴセントリックビデオの人間とオブジェクトの相互作用のアクションの把握のタイミングを見つけます。
Egolocは、VLM推論の合理的な視覚的プロンプトを生成するための自己適応サンプリング戦略を導入します。
2Dと3Dの両方の観測値を吸収することにより、3Dハンドヴェロシティに従ってHOIの接触/分離タイムスタンプの可能性を中心に高品質の初期推測を直接サンプリングし、高い推論の精度と効率につながります。
さらに、エゴロックは視覚的および動的なキューから閉ループフィードバックを生成し、ローカリゼーション結果をさらに改善します。
公開されているデータセットと新たに提案されたベンチマークでの包括的な実験は、エゴロックが最先端のベースラインと比較して、エゴセントリックビデオのより良い時間的相互作用の局在化を達成することを示しています。
https://github.com/irmvlab/egolocでオープンソースとしてコードと関連するデータをリリースします。

要約(オリジナル)

Locating human-object interaction (HOI) actions within video serves as the foundation for multiple downstream tasks, such as human behavior analysis and human-robot skill transfer. Current temporal action localization methods typically rely on annotated action and object categories of interactions for optimization, which leads to domain bias and low deployment efficiency. Although some recent works have achieved zero-shot temporal action localization (ZS-TAL) with large vision-language models (VLMs), their coarse-grained estimations and open-loop pipelines hinder further performance improvements for temporal interaction localization (TIL). To address these issues, we propose a novel zero-shot TIL approach dubbed EgoLoc to locate the timings of grasp actions for human-object interaction in egocentric videos. EgoLoc introduces a self-adaptive sampling strategy to generate reasonable visual prompts for VLM reasoning. By absorbing both 2D and 3D observations, it directly samples high-quality initial guesses around the possible contact/separation timestamps of HOI according to 3D hand velocities, leading to high inference accuracy and efficiency. In addition, EgoLoc generates closed-loop feedback from visual and dynamic cues to further refine the localization results. Comprehensive experiments on the publicly available dataset and our newly proposed benchmark demonstrate that EgoLoc achieves better temporal interaction localization for egocentric videos compared to state-of-the-art baselines. We will release our code and relevant data as open-source at https://github.com/IRMVLab/EgoLoc.

arxiv情報

著者 Erhang Zhang,Junyi Ma,Yin-Dong Zheng,Yixuan Zhou,Hesheng Wang
発行日 2025-06-04 07:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Zero-Shot Temporal Interaction Localization for Egocentric Videos はコメントを受け付けていません

An Improved Grey Wolf Optimizer Inspired by Advanced Cooperative Predation for UAV Shortest Path Planning

要約

軍事偵察、緊急救助、物流の配信などのドメインで無人航空機(UAV)の広範な適用により、最短の飛行経路を効率的に計画することが重大な課題になりました。
従来のヒューリスティックベースの方法は、しばしばローカルオプティマから逃れることができないことに悩まされており、これにより、最短経路を見つける際の有効性が制限されます。
これらの問題に対処するために、この研究では、新規改善されたグレーウルフオプティマイザー(IGWO)が提示されています。
提案されたIGWOには、メソッドの最適化能力を向上させるために、高度な協調的捕食(ACP)とレンズの反対ベースの学習戦略(LOBL)が組み込まれています。
シミュレーション結果は、IGWOがベンチマーク関数F1-F5、F7、およびF9-F12の最適化パフォーマンスで最初にランク付けされ、他のすべての比較アルゴリズムを上回ることを示しています。
その後、IGWOは、さまざまな障害物を含んだ環境でUAV最短経路計画に適用されます。
シミュレーション結果は、IGWOによって計画されたパスは、平均して、GWO、PSO、およびWOAによって計画されているパスよりも短いことを示しています。

要約(オリジナル)

With the widespread application of Unmanned Aerial Vehicles (UAVs) in domains like military reconnaissance, emergency rescue, and logistics delivery, efficiently planning the shortest flight path has become a critical challenge. Traditional heuristic-based methods often suffer from the inability to escape from local optima, which limits their effectiveness in finding the shortest path. To address these issues, a novel Improved Grey Wolf Optimizer (IGWO) is presented in this study. The proposed IGWO incorporates an Advanced Cooperative Predation (ACP) and a Lens Opposition-based Learning Strategy (LOBL) in order to improve the optimization capability of the method. Simulation results show that IGWO ranks first in optimization performance on benchmark functions F1-F5, F7, and F9-F12, outperforming all other compared algorithms. Subsequently, IGWO is applied to UAV shortest path planning in various obstacle-laden environments. Simulation results show that the paths planned by IGWO are, on average, shorter than those planned by GWO, PSO, and WOA by 1.70m, 1.68m, and 2.00m, respectively, across four different maps.

arxiv情報

著者 Zuhao Teng,Qian Dong,Ze Zhang,Shuangyao Huang,Wenzhang Zhang,Jingchen Wang,Ji Li,Xi Chen
発行日 2025-06-04 07:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | An Improved Grey Wolf Optimizer Inspired by Advanced Cooperative Predation for UAV Shortest Path Planning はコメントを受け付けていません

Digital-physical testbed for ship autonomy studies in the Marine Cybernetics Laboratory basin

要約

海上自律型の表面船(質量)のために開発されたアルゴリズムは、運用コストと安全性の高い考慮事項により、実際の船舶でテストするのが難しいことがよくあります。
シミュレーションは費用対効果の高い代替品を提供し、リスクを排除しますが、特定のタスクの実際のダイナミクスを正確に表すことはできません。
実験室盆地と併せて小規模モデル船とロボット容器を利用することで、検証プロセスの初期段階にアクセス可能なテスト環境を提供します。
ただし、単一のテスト用のモデル容器の設計と開発は、費用がかかり、面倒な場合があり、研究者はしばしばそのようなインフラストラクチャへのアクセスを欠いています。
これらの課題に対処し、合理化されたテストを可能にするために、デジタル物理実験室での質量アルゴリズムの開発、テスト、検証、および検証を促進する社内テストベッドを開発しました。
このインフラストラクチャには、小規模モデル容器のセット、各容器のシミュレーション環境、包括的なテストベッド環境、およびユニティのデジタルツインが含まれます。
これにより、各モデル容器の高忠実度シミュレーションモデルから始まる完全な設計および検証パイプラインを実験室盆地でのモデルスケールテストに確立することを目指しており、R/V Milliampere1を使用した半フルスケール検証とR/V Gunnerusによる全面的な検証に移行する可能性を可能にします。
この作業では、このテストベッド環境とそのコンポーネントの開発に関する進展を示し、自律性を含む船のガイダンス、ナビゲーション、および制御(GNC)を可能にする際のその有効性を示しています。

要約(オリジナル)

The algorithms developed for Maritime Autonomous Surface Ships (MASS) are often challenging to test on actual vessels due to high operational costs and safety considerations. Simulations offer a cost-effective alternative and eliminate risks, but they may not accurately represent real-world dynamics for the given tasks. Utilizing small-scale model ships and robotic vessels in conjunction with a laboratory basin provides an accessible testing environment for the early stages of validation processes. However, designing and developing a model vessel for a single test can be costly and cumbersome, and researchers often lack access to such infrastructure. To address these challenges and enable streamlined testing, we have developed an in-house testbed that facilitates the development, testing, verification, and validation of MASS algorithms in a digital-physical laboratory. This infrastructure includes a set of small-scale model vessels, a simulation environment for each vessel, a comprehensive testbed environment, and a digital twin in Unity. With this, we aim to establish a full design and verification pipeline that starts with high-fidelity simulation models of each model vessel, to the model-scale testing in the laboratory basin, allowing possibilities for moving towards semi-fullscale validation with R/V milliAmpere1 and full-scale validation with R/V Gunnerus. In this work, we present our progress on the development of this testbed environment and its components, demonstrating its effectiveness in enabling ship guidance, navigation, and control (GNC), including autonomy.

arxiv情報

著者 Emir Cem Gezer,Mael Korentin Ivan Moreau,Anders Sandneseng Høgden,Dong Trong Nguyen,Roger Skjetne,Asgeir Sørensen
発行日 2025-06-04 08:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Digital-physical testbed for ship autonomy studies in the Marine Cybernetics Laboratory basin はコメントを受け付けていません

Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

要約

この論文では、自己網性モデルと視覚運動ポリシーを学習するための拡散モデルをシームレスに組み合わせる新しいフレームワークであるdiffusionVlaを紹介します。
私たちのアプローチの中心は、次のトークン予測目標であり、モデルが現在の観測のコンテキストでユーザーのクエリを効果的に推論できるようにします。
その後、拡散モデルが取り付けられ、堅牢なアクション出力が生成されます。
自己融合を通じてポリシー学習を強化するために、推論フレーズをポリシー学習プロセスに直接統合する新しい推論インジェクションモジュールを紹介します。
フレームワーク全体がシンプルで柔軟であるため、簡単に展開してアップグレードできます。
複数の実際のロボットを使用して広範な実験を実施して、拡散vlaの有効性を検証します。
私たちのテストには、困難な工場選別タスクが含まれます。このタスクでは、拡散vlaがトレーニング中に見られなかったものを含むオブジェクトを正常に分類します。
推論モジュールにより、モデルが解釈可能になることがわかります。
オブザーバーは、モデルの思考プロセスを理解し、ポリシーの障害の潜在的な原因を特定することができます。
さらに、ゼロショットビンピッキングタスクでDiffusionVlaをテストし、以前に見えない102のオブジェクトで63.7%の精度を達成しました。
私たちの方法は、ディストラクタや新しい背景などの視覚的な変化に対する堅牢性を示し、新しい実施形態に簡単に適応します。
さらに、DiffusionVlaは新しい指示に従い、会話能力を維持できます。
特に、diffusionVlaはデータ効率が高く、推論で高速です。
私たちの最小の拡散Vla-2Bは、単一のA6000 GPUで82Hzを実行し、複雑なタスクのために50未満のデモンストレーションでゼロからトレーニングできます。
最後に、モデルを2Bから72Bのパラメーターから72Bパラメーターにスケーリングし、モデルサイズの増加により改善された一般化機能を紹介します。

要約(オリジナル)

In this paper, we present DiffusionVLA, a novel framework that seamlessly combines the autoregression model with the diffusion model for learning visuomotor policy. Central to our approach is a next-token prediction objective, enabling the model to reason effectively over the user’s query in the context of current observations. Subsequently, a diffusion model is attached to generate robust action outputs. To enhance policy learning through self-reasoning, we introduce a novel reasoning injection module that integrates reasoning phrases directly into the policy learning process. The whole framework is simple and flexible, making it easy to deploy and upgrade. We conduct extensive experiments using multiple real robots to validate the effectiveness of DiffusionVLA. Our tests include a challenging factory sorting task, where DiffusionVLA successfully categorizes objects, including those not seen during training. We observe that the reasoning module makes the model interpretable. It allows observers to understand the model thought process and identify potential causes of policy failures. Additionally, we test DiffusionVLA on a zero-shot bin-picking task, achieving 63.7\% accuracy on 102 previously unseen objects. Our method demonstrates robustness to visual changes, such as distractors and new backgrounds, and easily adapts to new embodiments. Furthermore, DiffusionVLA can follow novel instructions and retain conversational ability. Notably, DiffusionVLA is data-efficient and fast at inference; our smallest DiffusionVLA-2B runs 82Hz on a single A6000 GPU and can train from scratch on less than 50 demonstrations for a complex task. Finally, we scale the model from 2B to 72B parameters, showcasing improved generalization capabilities with increased model size.

arxiv情報

著者 Junjie Wen,Minjie Zhu,Yichen Zhu,Zhibin Tang,Jinming Li,Zhongyi Zhou,Chengmeng Li,Xiaoyu Liu,Yaxin Peng,Chaomin Shen,Feifei Feng
発行日 2025-06-04 08:30:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning はコメントを受け付けていません

An Open-source Capping Machine Suitable for Confined Spaces

要約

自動運転研究所(SDLS)のコンテキストでは、サンプルの調製におけるユビキタスなステップであるため、自動化されたエラーのないキャッピングが重要であることを保証します。
SDLでの自動キャッピングは、大小のワークスペース(たとえば、ヒュームフードの内部)で発生する可能性があります。
ただし、ほとんどの市販のキャッピングマシンは主に大きなスペース向けに設計されており、限られた環境にはかさばりすぎます。
さらに、多くの商用製品はクローズドソースであり、完全に自律的なワークフローへの統合を困難にすることができます。
このペーパーでは、コンパクトスペースに適したオープンソースキャッピングマシンを紹介します。コンパクトスペースは、キャッピング障害を認識するビジョンシステムも統合します。
キャッピングおよび非挿入プロセスは、マシンの設計とパフォーマンスを検証するために、それぞれ100回繰り返されます。
その結果、キャッピングマシンは、キャッピングとアンクップのために100%の成功率に達しました。
さらに、機械シーリング容量は、水、エタノール、アセトンの異なる蒸気圧の溶媒で満たされた12個のバイアルをキャッピングすることによって評価されます。
その後、バイアルは3時間ごとに3日間重量を量ります。
マシンの性能は、産業用キャッピングマシン(化学速度ステーション)と手動キャッピングに対してベンチマークされています。
プロトタイプでキャップされたバイアルは、1日あたり平均でコンテンツの体重の0.54%を失いましたが、化学速度でキャップされ、それぞれ0.0078%と0.013%を手動で失いました。
結果は、キャッピングマシンが、特にSDLの制限である場合、産業および手動キャッピングの合理的な代替手段であることを示しています。

要約(オリジナル)

In the context of self-driving laboratories (SDLs), ensuring automated and error-free capping is crucial, as it is a ubiquitous step in sample preparation. Automated capping in SDLs can occur in both large and small workspaces (e.g., inside a fume hood). However, most commercial capping machines are designed primarily for large spaces and are often too bulky for confined environments. Moreover, many commercial products are closed-source, which can make their integration into fully autonomous workflows difficult. This paper introduces an open-source capping machine suitable for compact spaces, which also integrates a vision system that recognises capping failure. The capping and uncapping processes are repeated 100 times each to validate the machine’s design and performance. As a result, the capping machine reached a 100 % success rate for capping and uncapping. Furthermore, the machine sealing capacities are evaluated by capping 12 vials filled with solvents of different vapour pressures: water, ethanol and acetone. The vials are then weighed every 3 hours for three days. The machine’s performance is benchmarked against an industrial capping machine (a Chemspeed station) and manual capping. The vials capped with the prototype lost 0.54 % of their content weight on average per day, while the ones capped with the Chemspeed and manually lost 0.0078 % and 0.013 %, respectively. The results show that the capping machine is a reasonable alternative to industrial and manual capping, especially when space and budget are limitations in SDLs.

arxiv情報

著者 Francisco Munguia-Galeano,Louis Longley,Satheeshkumar Veeramani,Zhengxue Zhou,Rob Clowes,Hatem Fakhruldeen,Andrew I. Cooper
発行日 2025-06-04 09:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | An Open-source Capping Machine Suitable for Confined Spaces はコメントを受け付けていません

Understanding Physical Properties of Unseen Deformable Objects by Leveraging Large Language Models and Robot Actions

要約

この論文では、オブジェクトとロボット間の相互作用を通じて、目に見えないオブジェクトの物理的特性を理解する問題を検討します。
変形性などの特別な特性を備えた目に見えないオブジェクトを処理することは、従来のタスクとモーション計画のアプローチに挑戦します。
大規模な言語モデル(LLMS)ベースのタスク計画における最近の結果は、目に見えないオブジェクトについて推論する能力を示しています。
ただし、ほとんどの研究では、物理的特性を見下ろす剛性オブジェクトを想定しています。
タスク計画を目的として、目に見えない変形可能なオブジェクトの物理的特性を調査するためのLLMベースの方法を提案します。
特定のオブジェクトプロパティのセット(折りたたみ性、曲げ可能性など)について、この方法では、ロボットアクションを使用して、オブジェクトと相互作用することでプロパティを決定します。
LLMおよびロボットアクションによって調査されたプロパティに基づいて、LLMはオブジェクトパッキングなどの特定のドメインのタスク計画を生成します。
実験では、提案された方法が変形可能なオブジェクトのプロパティを識別できることを示します。これは、プロパティが成功するために重要な役割を果たすビンパッキングタスクにさらに使用されます。

要約(オリジナル)

In this paper, we consider the problem of understanding the physical properties of unseen objects through interactions between the objects and a robot. Handling unseen objects with special properties such as deformability is challenging for traditional task and motion planning approaches as they are often with the closed world assumption. Recent results in Large Language Models (LLMs) based task planning have shown the ability to reason about unseen objects. However, most studies assume rigid objects, overlooking their physical properties. We propose an LLM-based method for probing the physical properties of unseen deformable objects for the purpose of task planning. For a given set of object properties (e.g., foldability, bendability), our method uses robot actions to determine the properties by interacting with the objects. Based on the properties examined by the LLM and robot actions, the LLM generates a task plan for a specific domain such as object packing. In the experiment, we show that the proposed method can identify properties of deformable objects, which are further used for a bin-packing task where the properties take crucial roles to succeed.

arxiv情報

著者 Changmin Park,Beomjoon Lee,Haechan Jung,Haejin Jung,Changjoo Nam
発行日 2025-06-04 09:25:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Understanding Physical Properties of Unseen Deformable Objects by Leveraging Large Language Models and Robot Actions はコメントを受け付けていません

SEM: Enhancing Spatial Understanding for Robust Robot Manipulation

要約

ロボット操作の重要な課題は、強い空間的理解、3D形状、オブジェクト関係、ロボットの具体化について推論する能力を備えたポリシーモデルの開発にあります。
既存の方法はしばしば不足しています。3Dポイントクラウドモデルにはセマンティックな抽象化がありませんが、2D画像エンコーダーは空間的推論に苦労しています。
これに対処するために、2つの補完的な観点から空間的理解を明示的に強化する新しい拡散ベースのポリシーフレームワークであるSEM(空間強化操作モデル)を提案します。
空間エンハンサーは、3D幾何学的コンテキストで視覚表現を増強しますが、ロボット状態エンコーダーは、共同依存関係のグラフベースモデリングを介して具体化された構造をキャプチャします。
これらのモジュールを統合することにより、SEMは空間的理解を大幅に改善し、既存のベースラインを上回る多様なタスク全体で堅牢で一般化可能な操作につながります。

要約(オリジナル)

A key challenge in robot manipulation lies in developing policy models with strong spatial understanding, the ability to reason about 3D geometry, object relations, and robot embodiment. Existing methods often fall short: 3D point cloud models lack semantic abstraction, while 2D image encoders struggle with spatial reasoning. To address this, we propose SEM (Spatial Enhanced Manipulation model), a novel diffusion-based policy framework that explicitly enhances spatial understanding from two complementary perspectives. A spatial enhancer augments visual representations with 3D geometric context, while a robot state encoder captures embodiment-aware structure through graphbased modeling of joint dependencies. By integrating these modules, SEM significantly improves spatial understanding, leading to robust and generalizable manipulation across diverse tasks that outperform existing baselines.

arxiv情報

著者 Xuewu Lin,Tianwei Lin,Lichao Huang,Hongyu Xie,Yiwei Jin,Keyu Li,Zhizhong Su
発行日 2025-06-04 09:29:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | SEM: Enhancing Spatial Understanding for Robust Robot Manipulation はコメントを受け付けていません

Enhancing Safety of Foundation Models for Visual Navigation through Collision Avoidance via Repulsive Estimation

要約

追加の範囲センサーを必要とせずに視覚ベースのナビゲーションの安全性を高めるプラグアンドプレイモジュールであるプラグアンドプレイモジュールであるケア(反発推定による衝突回避)を提案します。
RGB入力のみを使用した最近の基礎モデルは強力なパフォーマンスを示していますが、目に見えないオブジェクトまたはカメラパラメーター(例:視野、ポーズ、または焦点距離)のバリエーションを備えた分散(OOD)環境に一般化できないことがよくあります。
微調整がなければ、これらのモデルは衝突につながる危険な軌跡を生成する可能性があり、費用のかかるデータ収集と再訓練が必要です。
ケアは、ローカル軌道を出力するRGBベースのナビゲーションシステムとシームレスに統合し、単眼深度マップに由来する反発力ベクトルを使用して動的に調整することにより、この制限に対処します。
複数のロボットプラットフォームにまたがる最先端のビジョンベースのナビゲーションモデルと組み合わせることにより、ケアを評価します。
ケアは、目標を達成するパフォーマンスを犠牲にすることなく、一貫して衝突率(最大100%)を減らし、探索タスクで衝突のない移動距離を最大10.7倍改善します。

要約(オリジナル)

We propose CARE (Collision Avoidance via Repulsive Estimation), a plug-and-play module that enhances the safety of vision-based navigation without requiring additional range sensors or fine-tuning of pretrained models. While recent foundation models using only RGB inputs have shown strong performance, they often fail to generalize in out-of-distribution (OOD) environments with unseen objects or variations in camera parameters (e.g., field of view, pose, or focal length). Without fine-tuning, these models may generate unsafe trajectories that lead to collisions, requiring costly data collection and retraining. CARE addresses this limitation by seamlessly integrating with any RGB-based navigation system that outputs local trajectories, dynamically adjusting them using repulsive force vectors derived from monocular depth maps. We evaluate CARE by combining it with state-of-the-art vision-based navigation models across multiple robot platforms. CARE consistently reduces collision rates (up to 100%) without sacrificing goal-reaching performance and improves collision-free travel distance by up to 10.7x in exploration tasks.

arxiv情報

著者 Joonkyung Kim,Joonyeol Sim,Woojun Kim,Katia Sycara,Changjoo Nam
発行日 2025-06-04 11:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Enhancing Safety of Foundation Models for Visual Navigation through Collision Avoidance via Repulsive Estimation はコメントを受け付けていません

Phase-based Nonlinear Model Predictive Control for Humanoid Walking Stabilization with Single and Double Support Time Adjustments

要約

ヒューマノイドロボットのバランス制御は、ロボットが実際の環境でナビゲートできるようにするために広範囲に研究されています。
ただし、関連する最適化問題の固有の非線形性のために、ステップタイミングと二重サポートフェーズ(DSP)の両方が知られている単一サポートフェーズと二重サポートフェーズ(DSP)の両方の持続時間を明示的に最適化するバランスコントローラー。
その結果、最近の多くのアプローチは、DSPを無視するか、ヒューリスティックに基づいてその期間を調整するか、バランス戦略の順次調整に依存する線形化技術に基づいて調整します。
この研究では、外部障害の下でバランスを維持するためにゼロモーメントポイント〜(ZMP)変調、ステップ位置、ステップタイミング、およびDSPの持続時間を同時に最適化する新しい位相ベースの非線形モデル予測制御(MPC)フレームワークを提案します。
シミュレーションでは、提案されたコントローラーを、2つのシナリオの下でヒューリスティックまたはバランス戦略の連続的な調整に依存する2つの最先端のフレームワークと比較されました。
全体として、調査結果は、提案された方法が、シーケンシャルアプローチよりもバランス戦略のより柔軟な調整を提供し、一貫してヒューリスティックなアプローチを上回ることを示唆しています。
提案されたコントローラーの堅牢性と有効性も、実際のヒューマノイドロボットを使用した実験を通じて検証されました。

要約(オリジナル)

Balance control for humanoid robots has been extensively studied to enable robots to navigate in real-world environments. However, balance controllers that explicitly optimize the durations of both the single support phase, also known as step timing, and the Double Support Phase (DSP) have not been widely explored due to the inherent nonlinearity of the associated optimization problem. Consequently, many recent approaches either ignore the DSP or adjust its duration based on heuristics or on linearization techniques that rely on sequential coordination of balance strategies. This study proposes a novel phase-based nonlinear Model Predictive Control (MPC) framework that simultaneously optimizes Zero Moment Point~(ZMP) modulation, step location, step timing, and DSP duration to maintain balance under external disturbances. In simulation, the proposed controller was compared with two state-of-the-art frameworks that rely on heuristics or sequential coordination of balance strategies under two scenarios: forward walking on terrain emulating compliant ground and external push recovery while walking in place. Overall, the findings suggest that the proposed method offers more flexible coordination of balance strategies than the sequential approach, and consistently outperforms the heuristic approach. The robustness and effectiveness of the proposed controller were also validated through experiments with a real humanoid robot.

arxiv情報

著者 Kwanwoo Lee,Gyeongjae Park,Jaeheung Park
発行日 2025-06-04 11:41:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, G.1.6 | Phase-based Nonlinear Model Predictive Control for Humanoid Walking Stabilization with Single and Double Support Time Adjustments はコメントを受け付けていません