Adaptive Locomotion on Mud through Proprioceptive Sensing of Substrate Properties

要約

泥だらけの地形は、組成と水分の微妙な変化が基質の強度と力の反応に大きなばらつきにつながり、ロボットが滑りたり詰まったりすることがあるため、陸生ロボットに大きな課題をもたらします。
このホワイトペーパーでは、固有受容センシングを使用して泥特性を推定する方法を提示し、フリッパー駆動型のロボットがさまざまな強度の泥だらけの基板を介してその運動を適応させることができます。
まず、アクチュエータ電流と静的に取り付けられたロボットフリッパーからの位置信号を介して泥反力を特徴付けます。
測定された力を使用して、固有の泥特性を特徴付ける重要な係数を決定します。
固有受容的に推定された係数は、ラボグレードの負荷セルからの測定と密接に一致し、提案された方法の有効性を検証します。
次に、さまざまな泥の混合物をcraい回る際にオンラインで泥特性を推定するために、機関のロボットにこの方法を拡張します。
実験データは、泥反反力がロボットの動きに敏感に依存していることを明らかにしており、泥特性を正しく決定するために固有受容力とのロボットの動きの共同分析が必要です。
最後に、この方法をさまざまな強度の泥だらけの基板を横切って移動するフリッパー駆動のロボットに展開し、提案された方法により、ロボットが推定泥特性を使用して運動戦略を適応させ、移動障害を避けることができることを実証します。
私たちの調査結果は、複雑で変形可能な自然環境でのロボットの移動性を高めるための固有受容ベースの地形センシングの可能性を強調し、より堅牢なフィールド探索機能への道を開いています。

要約(オリジナル)

Muddy terrains present significant challenges for terrestrial robots, as subtle changes in composition and water content can lead to large variations in substrate strength and force responses, causing the robot to slip or get stuck. This paper presents a method to estimate mud properties using proprioceptive sensing, enabling a flipper-driven robot to adapt its locomotion through muddy substrates of varying strength. First, we characterize mud reaction forces through actuator current and position signals from a statically mounted robotic flipper. We use the measured force to determine key coefficients that characterize intrinsic mud properties. The proprioceptively estimated coefficients match closely with measurements from a lab-grade load cell, validating the effectiveness of the proposed method. Next, we extend the method to a locomoting robot to estimate mud properties online as it crawls across different mud mixtures. Experimental data reveal that mud reaction forces depend sensitively on robot motion, requiring joint analysis of robot movement with proprioceptive force to determine mud properties correctly. Lastly, we deploy this method in a flipper-driven robot moving across muddy substrates of varying strengths, and demonstrate that the proposed method allows the robot to use the estimated mud properties to adapt its locomotion strategy, and successfully avoid locomotion failures. Our findings highlight the potential of proprioception-based terrain sensing to enhance robot mobility in complex, deformable natural environments, paving the way for more robust field exploration capabilities.

arxiv情報

著者 Shipeng Liu,Jiaze Tang,Siyuan Meng,Feifei Qian
発行日 2025-06-05 19:16:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adaptive Locomotion on Mud through Proprioceptive Sensing of Substrate Properties はコメントを受け付けていません

TD-TOG Dataset: Benchmarking Zero-Shot and One-Shot Task-Oriented Grasping for Object Generalization

要約

タスク指向の握り(TOG)は、ロボットタスクの実行のための不可欠な予備ステップです。これには、意図されたタスクを容易にするターゲットオブジェクトの領域を把握することが含まれます。
既存の文献では、大きな需要にもかかわらず、トレーニングとベンチマークのためのTOGデータセットの可用性が限られていることが明らかになりました。これは、多くの場合、モデルのパフォーマンスを妨げるマスク注釈にアーティファクトを持っていることがよくあります。
さらに、TOGソリューションでは、トレーニング用にアフォーダンスマスク、グラップ、オブジェクトマスクが必要になることがよくありますが、既存のデータセットは通常、これらの注釈のサブセットのみを提供します。
これらの制限に対処するために、TOGソリューションをトレーニングおよび評価するように設計されたトップダウンタスク指向のグラズピン(TD-TOG)データセットを紹介します。
TD-TOGは、30のオブジェクトカテゴリと120のサブカテゴリを含む1,449の実世界のRGB-Dシーンで構成され、手で発生したオブジェクトマスク、アフォーダンス、平面長方形の握りを備えています。
また、オブジェクトのサブカテゴリを区別するTOGソリューションの能力を評価する新しいチャレンジのテストセットも備えています。
再トレーニングなしで以前に見えなかったオブジェクトを適応および操作できるTOGソリューションの需要に貢献するために、新しいTOGフレームワークであるバイナリ-TOGを提案します。
Binary-TOGは、オブジェクト認識のためにゼロショットを使用し、アフォーダンス認識のためにワンショット学習を使用します。
ゼロショット学習により、バイナリ-TOGはテキストプロンプトを介してマルチオブジェクトシーンのオブジェクトを識別し、視覚的な参照の必要性を排除できます。
マルチオブジェクト設定では、バイナリ-TOGは、平均的なタスク指向の把握精度を68.9%に達成します。
最後に、このペーパーでは、将来のTOGソリューションの開発に使用されるTOGのオブジェクト一般化のためのワンショット学習とゼロショット学習の比較分析に提供されます。

要約(オリジナル)

Task-oriented grasping (TOG) is an essential preliminary step for robotic task execution, which involves predicting grasps on regions of target objects that facilitate intended tasks. Existing literature reveals there is a limited availability of TOG datasets for training and benchmarking despite large demand, which are often synthetic or have artifacts in mask annotations that hinder model performance. Moreover, TOG solutions often require affordance masks, grasps, and object masks for training, however, existing datasets typically provide only a subset of these annotations. To address these limitations, we introduce the Top-down Task-oriented Grasping (TD-TOG) dataset, designed to train and evaluate TOG solutions. TD-TOG comprises 1,449 real-world RGB-D scenes including 30 object categories and 120 subcategories, with hand-annotated object masks, affordances, and planar rectangular grasps. It also features a test set for a novel challenge that assesses a TOG solution’s ability to distinguish between object subcategories. To contribute to the demand for TOG solutions that can adapt and manipulate previously unseen objects without re-training, we propose a novel TOG framework, Binary-TOG. Binary-TOG uses zero-shot for object recognition, and one-shot learning for affordance recognition. Zero-shot learning enables Binary-TOG to identify objects in multi-object scenes through textual prompts, eliminating the need for visual references. In multi-object settings, Binary-TOG achieves an average task-oriented grasp accuracy of 68.9%. Lastly, this paper contributes a comparative analysis between one-shot and zero-shot learning for object generalization in TOG to be used in the development of future TOG solutions.

arxiv情報

著者 Valerija Holomjova,Jamie Grech,Dewei Yi,Bruno Yun,Andrew Starkey,Pascal Meißner
発行日 2025-06-05 20:37:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TD-TOG Dataset: Benchmarking Zero-Shot and One-Shot Task-Oriented Grasping for Object Generalization はコメントを受け付けていません

Hierarchical Intention-Aware Expressive Motion Generation for Humanoid Robots

要約

効果的な人間とロボットの相互作用には、ロボットが人間の意図を特定し、表現力豊かで社会的に適切な動きをリアルタイムで生成する必要があります。
既存のアプローチは、多くの場合、固定モーションライブラリまたは計算上の高価な生成モデルに依存しています。
コンテキスト学習(ICL)と拡散モデルを使用したリアルタイムモーション生成を介して意図を認識する推論を組み合わせた階層的なフレームワークを提案します。
私たちのシステムは、意図の洗練と適応対応を可能にするために、自信のスコアリング、フォールバック行動、社会的文脈の認識を備えた構造化されたプロンプトを導入します。
大規模なモーションデータセットと効率的な潜在スペース除去を活用するこのフレームワークは、動的なヒューマノイド相互作用に適した多様で物理的にもっともらしいジェスチャーを生成します。
物理プラットフォームでの実験的検証は、現実的なシナリオでの方法の堅牢性と社会的整合を示しています。

要約(オリジナル)

Effective human-robot interaction requires robots to identify human intentions and generate expressive, socially appropriate motions in real-time. Existing approaches often rely on fixed motion libraries or computationally expensive generative models. We propose a hierarchical framework that combines intention-aware reasoning via in-context learning (ICL) with real-time motion generation using diffusion models. Our system introduces structured prompting with confidence scoring, fallback behaviors, and social context awareness to enable intention refinement and adaptive response. Leveraging large-scale motion datasets and efficient latent-space denoising, the framework generates diverse, physically plausible gestures suitable for dynamic humanoid interactions. Experimental validation on a physical platform demonstrates the robustness and social alignment of our method in realistic scenarios.

arxiv情報

著者 Lingfan Bao,Yan Pan,Tianhu Peng,Kanoulas Dimitrios,Chengxu Zhou
発行日 2025-06-05 21:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Hierarchical Intention-Aware Expressive Motion Generation for Humanoid Robots はコメントを受け付けていません

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

要約

大規模なロボットデータセットで前処理された大規模なビジョン言語アクション(VLA)モデルは、ロボット学習のための有望なジェネラリストポリシーを提供しますが、インタラクティブロボット工学の空間的ダイナミクスと格闘しており、操作などの複雑なタスクの処理にあまり効果的ではありません。
この作業では、視覚的なトレースプロンプトを紹介します。これは、状態アクション軌跡を視覚的にエンコードすることにより、VLAモデルのアクション予測に対する空間的意識を促進するためのシンプルで効果的なアプローチです。
視覚的なトレースプロンプトを使用して、150Kロボット操作軌跡の収集されたデータセットでOpenVLAを獲得することにより、新しいTraceVLAモデルを開発します。
SimplerEnvと4つのタスクでの137の構成にわたるTraceVLAの評価物理Widowxロボットの4つのタスクは、最先端のパフォーマンスを示し、SimpleRenvで10%、実質ロボットタスクで3.5倍になり、多様な具体的およびシナリオ全体にわたって堅牢な一般化を示します。
私たちの方法の有効性と一般性をさらに検証するために、4B PHI-3-visionに基づいたコンパクトなVLAモデルを提示し、オープンXエンボジメントで前処理され、データセットで微調整され、7B OpenVLAベースラインをライバルにしながら、耐用効率を大幅に改善します。

要約(オリジナル)

Although large vision-language-action (VLA) models pretrained on extensive robot datasets offer promising generalist policies for robotic learning, they still struggle with spatial-temporal dynamics in interactive robotics, making them less effective in handling complex tasks, such as manipulation. In this work, we introduce visual trace prompting, a simple yet effective approach to facilitate VLA models’ spatial-temporal awareness for action prediction by encoding state-action trajectories visually. We develop a new TraceVLA model by finetuning OpenVLA on our own collected dataset of 150K robot manipulation trajectories using visual trace prompting. Evaluations of TraceVLA across 137 configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and 3.5x on real-robot tasks and exhibiting robust generalization across diverse embodiments and scenarios. To further validate the effectiveness and generality of our method, we present a compact VLA model based on 4B Phi-3-Vision, pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B OpenVLA baseline while significantly improving inference efficiency.

arxiv情報

著者 Ruijie Zheng,Yongyuan Liang,Shuaiyi Huang,Jianfeng Gao,Hal Daumé III,Andrey Kolobov,Furong Huang,Jianwei Yang
発行日 2025-06-05 21:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies はコメントを受け付けていません

RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration

要約

具体化されたインテリジェンスの夜明けは、次世代の生態系にわたる回復力のある認知対応マルチエージェントコラボレーション、自律的な製造、適応型サービスロボット工学、サイバー物理生産アーキテクチャのパラダイムに革命をもたらすための前例のない命令に導かれました。
ただし、現在のロボットシステムは、限られた交差体の適応性、非効率的なタスクスケジューリング、動的エラー補正が不十分ななど、大きな制限に直面しています。
エンドツーエンドのVLAモデルは不十分な長老の計画とタスクの一般化を示していますが、階層VLAモデルは、交差体の存在と多象徴的な調整機能の欠如に苦しんでいます。
これらの課題に対処するために、脳小脳の階層構造に基づいて構築された最初のオープンソース具体化されたシステムであるRoboosを導入し、単一エージェントからマルチエージェントインテリジェンスへのパラダイムシフトを可能にします。
具体的には、ロブーは3つの重要なコンポーネントで構成されています。(1)具体化された脳モデル(ロボブリン)、グローバルな認識と高レベルの意思決定のために設計されたMLLM。
(2)複数のスキルのシームレスな実行を促進するモジュール式のプラグアンドプレイツールキットであるセレベラムスキルライブラリ。
(3)マルチエージェント状態を調整するための時空間的同期メカニズムであるリアルタイム共有メモリ。
階層情報の流れを統合することにより、Roboos Bridgesは脳と小脳スキルライブラリを具体化し、リアルタイム共有メモリを通じて効率的なマルチエージェントコラボレーションを確保しながら、堅牢な計画、スケジューリング、およびエラー修正を促進します。
さらに、高周波相互作用を促進し、スケーラブルな展開を可能にするために、エッジクラウド通信とクラウドベースの分散推論を強化します。
さまざまなシナリオにわたる広範な現実世界の実験は、不均一な実施形態をサポートする際のロブーの多様性を示しています。
プロジェクトWebサイト:https://github.com/flagopen/roboos

要約(オリジナル)

The dawn of embodied intelligence has ushered in an unprecedented imperative for resilient, cognition-enabled multi-agent collaboration across next-generation ecosystems, revolutionizing paradigms in autonomous manufacturing, adaptive service robotics, and cyber-physical production architectures. However, current robotic systems face significant limitations, such as limited cross-embodiment adaptability, inefficient task scheduling, and insufficient dynamic error correction. While End-to-end VLA models demonstrate inadequate long-horizon planning and task generalization, hierarchical VLA models suffer from a lack of cross-embodiment and multi-agent coordination capabilities. To address these challenges, we introduce RoboOS, the first open-source embodied system built on a Brain-Cerebellum hierarchical architecture, enabling a paradigm shift from single-agent to multi-agent intelligence. Specifically, RoboOS consists of three key components: (1) Embodied Brain Model (RoboBrain), a MLLM designed for global perception and high-level decision-making; (2) Cerebellum Skill Library, a modular, plug-and-play toolkit that facilitates seamless execution of multiple skills; and (3) Real-Time Shared Memory, a spatiotemporal synchronization mechanism for coordinating multi-agent states. By integrating hierarchical information flow, RoboOS bridges Embodied Brain and Cerebellum Skill Library, facilitating robust planning, scheduling, and error correction for long-horizon tasks, while ensuring efficient multi-agent collaboration through Real-Time Shared Memory. Furthermore, we enhance edge-cloud communication and cloud-based distributed inference to facilitate high-frequency interactions and enable scalable deployment. Extensive real-world experiments across various scenarios, demonstrate RoboOS’s versatility in supporting heterogeneous embodiments. Project website: https://github.com/FlagOpen/RoboOS

arxiv情報

著者 Huajie Tan,Xiaoshuai Hao,Cheng Chi,Minglan Lin,Yaoxu Lyu,Mingyu Cao,Dong Liang,Zhuo Chen,Mengsi Lyu,Cheng Peng,Chenrui He,Yulong Ao,Yonghua Lin,Pengwei Wang,Zhongyuan Wang,Shanghang Zhang
発行日 2025-06-05 23:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration はコメントを受け付けていません

A Modular Haptic Display with Reconfigurable Signals for Personalized Information Transfer

要約

モジュラーハードウェアを情報理論的アルゴリズムと統合して、さまざまなユーザーやタスクのフィードバックをパーソナライズするカスタマイズ可能なソフトハプティックシステムを提示します。
当社のプラットフォームには、圧力、周波数、接触面積などのさまざまな信号タイプが流体論理回路を使用してアクティブ化または組み合わせることができるモジュール式の多度空気圧ディスプレイを備えています。
これらの回路は、特殊な電子機器への依存を減らし、コンパクトな入力セットを介して複数の触覚要素の調整された作動を可能にすることにより、制御を簡素化します。
私たちのアプローチにより、コードを書き換えることなく、ハードウェアレベルのロジックスイッチングを介して触覚信号の迅速な再構成が可能になります。
触覚インターフェイスのパーソナライズは、モジュラーハードウェアとソフトウェア駆動型信号選択の組み合わせによって達成されます。
どのディスプレイ構成が最も効果的であるかを判断するために、エージェントがユーザーに潜在情報を伝える必要がある信号伝送の問題として触覚通信をモデル化します。
最適化問題を策定して、意図したメッセージとユーザーの解釈との間の情報転送を最大化する触覚ハードウェアのセットアップを特定し、感度、好み、および知覚的顕著性の個人差を説明します。
このフレームワークは、参加者が異なる信号の組み合わせの下で再構成可能なディスプレイと対話するユーザー研究を通じて評価します。
私たちの調査結果は、マルチモーダルの触覚インターフェイスを作成し、動的なヒューマシンインタラクションコンテキストでユーザーに適応する再構成可能なシステムの開発を進める際のモジュール性とパーソナライズの役割をサポートしています。

要約(オリジナル)

We present a customizable soft haptic system that integrates modular hardware with an information-theoretic algorithm to personalize feedback for different users and tasks. Our platform features modular, multi-degree-of-freedom pneumatic displays, where different signal types, such as pressure, frequency, and contact area, can be activated or combined using fluidic logic circuits. These circuits simplify control by reducing reliance on specialized electronics and enabling coordinated actuation of multiple haptic elements through a compact set of inputs. Our approach allows rapid reconfiguration of haptic signal rendering through hardware-level logic switching without rewriting code. Personalization of the haptic interface is achieved through the combination of modular hardware and software-driven signal selection. To determine which display configurations will be most effective, we model haptic communication as a signal transmission problem, where an agent must convey latent information to the user. We formulate the optimization problem to identify the haptic hardware setup that maximizes the information transfer between the intended message and the user’s interpretation, accounting for individual differences in sensitivity, preferences, and perceptual salience. We evaluate this framework through user studies where participants interact with reconfigurable displays under different signal combinations. Our findings support the role of modularity and personalization in creating multimodal haptic interfaces and advance the development of reconfigurable systems that adapt with users in dynamic human-machine interaction contexts.

arxiv情報

著者 Antonio Alvarez Valdivia,Benjamin A. Christie,Dylan P. Losey,Laura H. Blumenschein
発行日 2025-06-06 00:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | A Modular Haptic Display with Reconfigurable Signals for Personalized Information Transfer はコメントを受け付けていません

Towards Autonomous In-situ Soil Sampling and Mapping in Large-Scale Agricultural Environments

要約

従来の土壌サンプリングと分析方法は、労働集約的で、時間がかかり、空間分解能が制限されているため、大規模な精密農業には適していません。
これらの制限に対処するために、主要な土壌特性のリアルタイムサンプリング、分析、マッピングのためのロボットソリューションを提示します。
当社のシステムは、2つの主要なサブシステムで構成されています。正確で自動化されたフィールド内の土壌サンプリングのためのサンプル取得システム(SAS)。
リアルタイムの土壌特性分析のためのサンプル分析ラボ(ラボ)。
システムのパフォーマンスは、大規模なオーストラリアの農場での広範なフィールドトライアルを通じて検証されました。
実験結果は、SASが深さ200mmで50gの質量のある土壌サンプルを一貫して取得できることを示していますが、ラボは10分以内に各サンプルを処理してpHおよび主要栄養素を正確に測定できます。
これらの結果は、より効率的で持続可能な土壌管理と肥料アプリケーションのためのタイムリーでデータ駆動型の洞察を農家に提供するシステムの可能性を示しています。

要約(オリジナル)

Traditional soil sampling and analysis methods are labor-intensive, time-consuming, and limited in spatial resolution, making them unsuitable for large-scale precision agriculture. To address these limitations, we present a robotic solution for real-time sampling, analysis and mapping of key soil properties. Our system consists of two main sub-systems: a Sample Acquisition System (SAS) for precise, automated in-field soil sampling; and a Sample Analysis Lab (Lab) for real-time soil property analysis. The system’s performance was validated through extensive field trials at a large-scale Australian farm. Experimental results show that the SAS can consistently acquire soil samples with a mass of 50g at a depth of 200mm, while the Lab can process each sample within 10 minutes to accurately measure pH and macronutrients. These results demonstrate the potential of the system to provide farmers with timely, data-driven insights for more efficient and sustainable soil management and fertilizer application.

arxiv情報

著者 Thien Hoang Nguyen,Erik Muller,Michael Rubin,Xiaofei Wang,Fiorella Sibona,Salah Sukkarieh
発行日 2025-06-06 00:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.RO | Towards Autonomous In-situ Soil Sampling and Mapping in Large-Scale Agricultural Environments はコメントを受け付けていません

Beyond Winning Strategies: Admissible and Admissible Winning Strategies for Quantitative Reachability Games

要約

古典的な反応性合成アプローチは、特定の仕様を常に満たすリアクティブシステムを合成することを目的としています。
これらのアプローチは、多くの場合、勝利戦略を統合することを目標とする2人のゼロサムゲームをプレイすることに減少します。
ただし、ロボット工学などの多くの実用的なドメインでは、勝利戦略が常に存在するとは限りませんが、システムが「あきらめる」のではなく、要件を満たす努力をすることが望ましいです。
この目的のために、このペーパーでは、定量的な到達可能性ゲームにおいて「ベストを実行する」ことを正式化する許容戦略の概念を調査します。
定性的なケースとは異なり、定量的許容戦略は有限のペイオフ関数であっても履歴依存であり、合成が困難なタスクになることを示しています。
さらに、許容可能な戦略は常に存在するが、望ましくない楽観的な行動を生み出す可能性があることを証明します。
これを緩和するために、私たちは許容される勝利戦略を提案します。
両方の戦略が常に存在しますが、記憶がないことを示しています。
両方の戦略の存在に必要かつ十分な条件を提供し、合成アルゴリズムを提案します。
最後に、GridWorldおよびRobotマニピュレータードメインの戦略を説明します。

要約(オリジナル)

Classical reactive synthesis approaches aim to synthesize a reactive system that always satisfies a given specifications. These approaches often reduce to playing a two-player zero-sum game where the goal is to synthesize a winning strategy. However, in many pragmatic domains, such as robotics, a winning strategy does not always exist, yet it is desirable for the system to make an effort to satisfy its requirements instead of ‘giving up’. To this end, this paper investigates the notion of admissible strategies, which formalize ‘doing-your-best’, in quantitative reachability games. We show that, unlike the qualitative case, quantitative admissible strategies are history-dependent even for finite payoff functions, making synthesis a challenging task. In addition, we prove that admissible strategies always exist but may produce undesirable optimistic behaviors. To mitigate this, we propose admissible winning strategies, which enforce the best possible outcome while being admissible. We show that both strategies always exist but are not memoryless. We provide necessary and sufficient conditions for the existence of both strategies and propose synthesis algorithms. Finally, we illustrate the strategies on gridworld and robot manipulator domains.

arxiv情報

著者 Karan Muvvala,Qi Heng Ho,Morteza Lahijanian
発行日 2025-06-06 01:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.FL, cs.GT, cs.LO, cs.RO, D.2.4 | Beyond Winning Strategies: Admissible and Admissible Winning Strategies for Quantitative Reachability Games はコメントを受け付けていません

Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station

要約

このフィールドレポートでは、頑丈な環境でGPRローカリゼーション技術を検証する目的で、MARSアナログ環境で地面の浸透レーダー(GPR)データを収集するために、フィールド遠征から学んだ教訓について詳しく説明します。
惑星ローバーには、地質学的地下特性評価用のGPRが既に装備されています。
GPRは、地球上の車両のローカライズに成功裏に使用されていますが、惑星の群れでのローカリゼーションのための別のモダリティとしてまだ調査されていません。
ローカリゼーションのためにGPRを活用すると、効率的で堅牢なローバーポーズ推定に役立ちます。
火星アナログ環境でGPRのローカライズを実証するために、Mars Desert Research Station(MDRS)で2週間に50以上の個別の調査軌跡を収集しました。
このレポートでは、方法論、学んだ教訓、将来の仕事の機会について説明します。

要約(オリジナル)

In this field report, we detail the lessons learned from our field expedition to collect Ground Penetrating Radar (GPR) data in a Mars analog environment for the purpose of validating GPR localization techniques in rugged environments. Planetary rovers are already equipped with GPR for geologic subsurface characterization. GPR has been successfully used to localize vehicles on Earth, but it has not yet been explored as another modality for localization on a planetary rover. Leveraging GPR for localization can aid in efficient and robust rover pose estimation. In order to demonstrate localizing GPR in a Mars analog environment, we collected over 50 individual survey trajectories during a two-week period at the Mars Desert Research Station (MDRS). In this report, we discuss our methodology, lessons learned, and opportunities for future work.

arxiv情報

著者 Anja Sheppard,Katherine A. Skinner
発行日 2025-06-06 02:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station はコメントを受け付けていません

DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation

要約

なじみのない環境での適応ナビゲーションは、家庭用サービスロボットにとって重要ですが、低レベルのパス計画と高レベルのシーンの理解の両方が必要であるため、困難なままです。
最近のビジョン言語モデル(VLM)ベースのゼロショットアプローチは、以前のマップとシーン固有のトレーニングデータへの依存を減らしますが、それらは大きな制限に直面しています:離散観察からの時空の不連続性、非構造化されたメモリ表現、および航行障害につながるタスク理解が不十分です。
ヒトナビゲーション能力を模倣する腹側と背側の流れで構成される新しい認知インスパイアされたフレームワークである、ドラメモン(強化されたメモリ指向ナビゲーションを備えた分散型オントロジー対応の信頼できるエージェント)を提案します。
背面は、階層的なセマンティック空間融合とトポロジーマップを実装して、時空間的な不連続性を処理し、腹部ストリームはRAG-VLMとポリシーVLMを組み合わせて意思決定を改善します。
また、私たちのアプローチは、ナビゲーションの安全性と効率性を確保するために、NAV授業を開発しています。
HM3D、MP3D、およびGOATデータセットでDoraemonを評価します。このデータセットでは、成功率(SR)と成功の両方でパス長(SPL)メトリックで重み付けされ、既存の方法を大幅に上回ることができます。
また、ナビゲーションインテリジェンスをより良く評価するために、新しい評価メトリック(AORI)を紹介します。
包括的な実験では、以前のマップビルディングや事前トレーニングを必要とせずに、ゼロショット自律ナビゲーションにおけるドラリーモンの有効性が示されています。

要約(オリジナル)

Adaptive navigation in unfamiliar environments is crucial for household service robots but remains challenging due to the need for both low-level path planning and high-level scene understanding. While recent vision-language model (VLM) based zero-shot approaches reduce dependence on prior maps and scene-specific training data, they face significant limitations: spatiotemporal discontinuity from discrete observations, unstructured memory representations, and insufficient task understanding leading to navigation failures. We propose DORAEMON (Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation), a novel cognitive-inspired framework consisting of Ventral and Dorsal Streams that mimics human navigation capabilities. The Dorsal Stream implements the Hierarchical Semantic-Spatial Fusion and Topology Map to handle spatiotemporal discontinuities, while the Ventral Stream combines RAG-VLM and Policy-VLM to improve decision-making. Our approach also develops Nav-Ensurance to ensure navigation safety and efficiency. We evaluate DORAEMON on the HM3D, MP3D, and GOAT datasets, where it achieves state-of-the-art performance on both success rate (SR) and success weighted by path length (SPL) metrics, significantly outperforming existing methods. We also introduce a new evaluation metric (AORI) to assess navigation intelligence better. Comprehensive experiments demonstrate DORAEMON’s effectiveness in zero-shot autonomous navigation without requiring prior map building or pre-training.

arxiv情報

著者 Tianjun Gu,Linfeng Li,Xuhong Wang,Chenghua Gong,Jingyu Gong,Zhizhong Zhang,Yuan Xie,Lizhuang Ma,Xin Tan
発行日 2025-06-06 03:29:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation はコメントを受け付けていません