M2P2: A Multi-Modal Passive Perception Dataset for Off-Road Mobility in Extreme Low-Light Conditions

要約

長時間にわたるオフロードの自律ミッションでは、ロボットが周囲の照明条件に関係なく周囲を継続的に認識する必要があります。
既存の自律システムのほとんどは、環境の幾何学形状とセマンティクスを認識するために、LiDAR、RADAR、飛行時間センサーなどのアクティブ センシングに大きく依存するか、カラー カメラなどの (ステレオ) 可視光イメージング センサーを使用します。
完全に受動的な知覚が必要で、可視光カメラが認識できない程度に照明条件が悪化するシナリオでは、障害物回避などの下流のモビリティタスクのほとんどが不可能になります。
このような課題に対処するために、この論文では、薄明かりから無光の状態でのオフロードモビリティを可能にするマルチモーダル受動的知覚データセット M2P2 を紹介します。
当社は、サーマル、イベント、ステレオ RGB カメラ、GPS、2 つの慣性測定ユニット (IMU)、およびグランド トゥルース用の高解像度 LiDAR を含むマルチモーダル センサー スイートを、新しいマルチセンサー キャリブレーション手順を使用して設計します。
マルチモーダルな知覚ストリームを共通の座標系に効率的に変換します。
当社の 10 時間、32 km のデータセットには、ロボットのオドメトリやアクションなどのモビリティ データも含まれており、明るい場所、暗い場所、光のない状態、さらに舗装された場所、トレイル上、トレイル外の地形もカバーしています。
私たちの結果は、エンドツーエンドの学習と古典的な計画を使用した極度の低照度条件下での受動的な知覚のみによってオフロードモビリティが可能であることを示しています。
プロジェクトの Web サイトは https://cs.gmu.edu/~xiao/Research/M2P2/ にあります。

要約(オリジナル)

Long-duration, off-road, autonomous missions require robots to continuously perceive their surroundings regardless of the ambient lighting conditions. Most existing autonomy systems heavily rely on active sensing, e.g., LiDAR, RADAR, and Time-of-Flight sensors, or use (stereo) visible light imaging sensors, e.g., color cameras, to perceive environment geometry and semantics. In scenarios where fully passive perception is required and lighting conditions are degraded to an extent that visible light cameras fail to perceive, most downstream mobility tasks such as obstacle avoidance become impossible. To address such a challenge, this paper presents a Multi-Modal Passive Perception dataset, M2P2, to enable off-road mobility in low-light to no-light conditions. We design a multi-modal sensor suite including thermal, event, and stereo RGB cameras, GPS, two Inertia Measurement Units (IMUs), as well as a high-resolution LiDAR for ground truth, with a novel multi-sensor calibration procedure that can efficiently transform multi-modal perceptual streams into a common coordinate system. Our 10-hour, 32 km dataset also includes mobility data such as robot odometry and actions and covers well-lit, low-light, and no-light conditions, along with paved, on-trail, and off-trail terrain. Our results demonstrate that off-road mobility is possible through only passive perception in extreme low-light conditions using end-to-end learning and classical planning. The project website can be found at https://cs.gmu.edu/~xiao/Research/M2P2/

arxiv情報

著者 Aniket Datar,Anuj Pokhrel,Mohammad Nazeri,Madhan B. Rao,Chenhui Pan,Yufan Zhang,Andre Harrison,Maggie Wigness,Philip R. Osteen,Jinwei Ye,Xuesu Xiao
発行日 2024-10-01 22:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Learning to Build by Building Your Own Instructions

要約

複雑な視覚オブジェクトの構造的理解は、人工知能の重要な未解決の要素です。
これを研究するために、LTRON で最近提案された Break-and-Make 問題に対する新しい手法を開発しました。この問題では、エージェントは、コンポーネントとその構造に関する情報を収集するために、単一の対話型セッションを使用して、これまで見たことのない LEGO アセンブリを構築する方法を学習する必要があります。
私たちは、独自の視覚的な説明書を作成できる \textbf{\ours} と呼ばれるエージェントを構築することで、この問題に取り組みます。
目に見えないアセンブリを逆アセンブルし、そのイメージを定期的に保存することで、エージェントは一連の命令を作成して、再構築に必要な情報を得ることができます。
これらの命令は、モデルが一度に 1 ステップずつ組み立てプロセスについて推論できるようにする明示的な記憶を形成し、長期にわたる暗黙的な記憶の必要性を回避します。
これにより、これまで可能であったものよりもはるかに大きなレゴ アセンブリでトレーニングできるようになります。
このモデルの力を実証するために、手順に従って構築されたレゴ車両の新しいデータセットをリリースします。このデータセットには、それぞれ平均 31 個のレンガが含まれており、分解と再組み立てには 100 ステップ以上が必要です。
これらのモデルは、モデル自身の間違いから学習できるオンライン模倣学習を使用してトレーニングされます。
最後に、学習環境を簡素化し、使いやすさを向上させる、LTRON と Break-and-Make 問題に対する小さな改善もいくつか提供します。

要約(オリジナル)

Structural understanding of complex visual objects is an important unsolved component of artificial intelligence. To study this, we develop a new technique for the recently proposed Break-and-Make problem in LTRON where an agent must learn to build a previously unseen LEGO assembly using a single interactive session to gather information about its components and their structure. We attack this problem by building an agent that we call \textbf{\ours} that is able to make its own visual instruction book. By disassembling an unseen assembly and periodically saving images of it, the agent is able to create a set of instructions so that it has the information necessary to rebuild it. These instructions form an explicit memory that allows the model to reason about the assembly process one step at a time, avoiding the need for long-term implicit memory. This in turn allows us to train on much larger LEGO assemblies than has been possible in the past. To demonstrate the power of this model, we release a new dataset of procedurally built LEGO vehicles that contain an average of 31 bricks each and require over one hundred steps to disassemble and reassemble. We train these models using online imitation learning which allows the model to learn from its own mistakes. Finally, we also provide some small improvements to LTRON and the Break-and-Make problem that simplify the learning environment and improve usability.

arxiv情報

著者 Aaron Walsman,Muru Zhang,Adam Fishman,Ali Farhadi,Dieter Fox
発行日 2024-10-01 22:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Affordance-Guided Reinforcement Learning via Visual Prompting

要約

強化学習 (RL) を備えたロボットは、報酬信号だけから幅広いスキルを学習できる可能性があります。
ただし、一般的な操作タスクで堅牢かつ高密度の報酬信号を取得することは依然として課題です。
既存の学習ベースのアプローチでは、タスク固有の報酬関数を学習するために、人間による成功と失敗のデモンストレーションなどの重要なデータが必要です。
最近では、物理的コンテキストで視覚的推論を実行し、操作タスクのための粗いロボットの動きを生成できる、ロボット工学のための大規模なマルチモーダル基礎モデルの採用も増えています。
この範囲の機能を動機として、この研究では、自律型 RL のビジョン言語モデル (VLM) によって形成された報酬を活用する方法である、キーポイントベースの改善のためのアフォーダンス ガイダンス (KAGI) を紹介します。
最先端の VLM は、ゼロショットのキーポイントを通じてアフォーダンスに関する印象的な推論を実証しており、私たちはこれらを使用して、自律的なロボット学習を導く高密度の報酬を定義します。
自然言語記述によって指定された現実世界の操作タスクにおいて、KAGI は自律 RL のサンプル効率を向上させ、20K のオンライン微調整ステップでタスクを正常に完了できるようにします。
さらに、事前トレーニングに使用されるドメイン内デモンストレーションの数の削減に対する KAGI の堅牢性を実証し、35,000 のオンライン微調整ステップで同様のパフォーマンスに達します。
プロジェクトのウェブサイト: https://sites.google.com/view/affordance-guided-rl

要約(オリジナル)

Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as human demonstrations of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics that can perform visual reasoning in physical contexts and generate coarse robot motions for manipulation tasks. Motivated by this range of capability, in this work, we present Keypoint-based Affordance Guidance for Improvements (KAGI), a method leveraging rewards shaped by vision-language models (VLMs) for autonomous RL. State-of-the-art VLMs have demonstrated impressive reasoning about affordances through keypoints in zero-shot, and we use these to define dense rewards that guide autonomous robotic learning. On real-world manipulation tasks specified by natural language descriptions, KAGI improves the sample efficiency of autonomous RL and enables successful task completion in 20K online fine-tuning steps. Additionally, we demonstrate the robustness of KAGI to reductions in the number of in-domain demonstrations used for pre-training, reaching similar performance in 35K online fine-tuning steps. Project website: https://sites.google.com/view/affordance-guided-rl

arxiv情報

著者 Olivia Y. Lee,Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn
発行日 2024-10-02 00:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

StraightTrack: Towards Mixed Reality Navigation System for Percutaneous K-wire Insertion

要約

経皮的骨盤外傷手術では、効果的な骨折固定を確保し、不適切な軌道に沿った皮質骨の破壊による合併症を回避するために、キルシュナー ワイヤー (K ワイヤー) を正確に配置することが重要です。
複合現実 (MR) による手術ナビゲーションは、薄型フォーム ファクターでの正確なワイヤ配置の実現に役立ちます。
この分野における現在のアプローチは、ワイヤーが制御されていないため、正確な視覚的フィードバックを保証できないため、現実世界の展開にはまだ適していません。
正確なフィードバックを保証するために、複雑な解剖学的構造における経皮的ワイヤ配置用に設計された MR ナビゲーション システムである StraightTrack を導入します。
StraightTrack は、軟組織や覆われた骨表面との相互作用によるワイヤーの曲がりを軽減する剛性アクセス カニューレを備えたマーカー本体を備えています。
StraightTrack は、カニューレ本体を追跡できる光学式シースルー ヘッドマウント ディスプレイ (OST HMD) と統合されており、視線を失いがちな外部トラッカーを使用せずに、リアルタイムの 3D 視覚化とガイダンスを提供します。
経験豊富な整形外科医 2 名による仮想実験では、StraightTrack はワイヤー配置の精度を向上させ、同等の方法では 12.08 mm 以上および 4.07 度を超えるのに対し、$5.26 \pm 2.29$ mm および $2.88 \pm 1.49$ 度以内の理想的な軌道を達成しました。
MR ナビゲーション システムが成熟し続けるにつれて、StraightTrack は内部骨折固定やその他の経皮整形外科処置における可能性を認識しています。

要約(オリジナル)

In percutaneous pelvic trauma surgery, accurate placement of Kirschner wires (K-wires) is crucial to ensure effective fracture fixation and avoid complications due to breaching the cortical bone along an unsuitable trajectory. Surgical navigation via mixed reality (MR) can help achieve precise wire placement in a low-profile form factor. Current approaches in this domain are as yet unsuitable for real-world deployment because they fall short of guaranteeing accurate visual feedback due to uncontrolled bending of the wire. To ensure accurate feedback, we introduce StraightTrack, an MR navigation system designed for percutaneous wire placement in complex anatomy. StraightTrack features a marker body equipped with a rigid access cannula that mitigates wire bending due to interactions with soft tissue and a covered bony surface. Integrated with an Optical See-Through Head-Mounted Display (OST HMD) capable of tracking the cannula body, StraightTrack offers real-time 3D visualization and guidance without external trackers, which are prone to losing line-of-sight. In phantom experiments with two experienced orthopedic surgeons, StraightTrack improves wire placement accuracy, achieving the ideal trajectory within $5.26 \pm 2.29$ mm and $2.88 \pm 1.49$ degree, compared to over 12.08 mm and 4.07 degree for comparable methods. As MR navigation systems continue to mature, StraightTrack realizes their potential for internal fracture fixation and other percutaneous orthopedic procedures.

arxiv情報

著者 Han Zhang,Benjamin D. Killeen,Yu-Chun Ku,Lalithkumar Seenivasan,Yuxuan Zhao,Mingxu Liu,Yue Yang,Suxi Gu,Alejandro Martin-Gomez,Russell H. Taylor,Greg Osgood,Mathias Unberath
発行日 2024-10-02 00:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models

要約

大規模言語モデル (LLM) は、ロボット操作やナビゲーションを含むさまざまなタスクにわたって言語命令を実行するように身体化されたエージェントを導く上で、大きな可能性を示しています。
ただし、既存の方法は主に静的環境向けに設計されており、エージェント自身の経験を活用して初期計画を改善することはありません。
現実世界の環境は本質的に確率論的であるため、静的シナリオとは異なり、LLM の一般知識のみに基づいた初期計画は目的を達成できない可能性があります。
この制限に対処するために、この研究では、LLM の知識だけでなくエージェントの実世界の経験を統合し、人間の感情的反応からインスピレーションを得たエクスペリエンスと感情マップ (E2Map) を導入しました。
提案された方法論では、エージェントの経験に基づいて E2Map を更新することで、ワンショットの動作調整が可能になります。
シミュレーションと現実世界のシナリオの両方を含む確率的ナビゲーション環境での評価では、提案された方法が既存の LLM ベースのアプローチと比較して確率的環境でのパフォーマンスが大幅に向上することが実証されています。
コードと補足資料は https://e2map.github.io/ で入手できます。

要約(オリジナル)

Large language models (LLMs) have shown significant potential in guiding embodied agents to execute language instructions across a range of tasks, including robotic manipulation and navigation. However, existing methods are primarily designed for static environments and do not leverage the agent’s own experiences to refine its initial plans. Given that real-world environments are inherently stochastic, initial plans based solely on LLMs’ general knowledge may fail to achieve their objectives, unlike in static scenarios. To address this limitation, this study introduces the Experience-and-Emotion Map (E2Map), which integrates not only LLM knowledge but also the agent’s real-world experiences, drawing inspiration from human emotional responses. The proposed methodology enables one-shot behavior adjustments by updating the E2Map based on the agent’s experiences. Our evaluation in stochastic navigation environments, including both simulations and real-world scenarios, demonstrates that the proposed method significantly enhances performance in stochastic environments compared to existing LLM-based approaches. Code and supplementary materials are available at https://e2map.github.io/.

arxiv情報

著者 Chan Kim,Keonwoo Kim,Mintaek Oh,Hanbi Baek,Jiyang Lee,Donghwi Jung,Soojin Woo,Younkyung Woo,John Tucker,Roya Firoozi,Seung-Woo Seo,Mac Schwager,Seong-Woo Kim
発行日 2024-10-02 00:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Large Language Models as Zero-Shot Human Models for Human-Robot Interaction

要約

ヒューマン モデルはヒューマン ロボット インタラクション (HRI) において重要な役割を果たし、ロボットが自分の行動が人に与える影響を考慮し、それに応じて行動を計画できるようにします。
ただし、優れた人体モデルを作成するのは困難です。
コンテキスト依存の人間の行動を捉えるには、重要な事前知識や大量のインタラクション データが必要ですが、どちらも入手するのが困難です。
この研究では、人間が生成した膨大な量のテキスト データを消費する大規模言語モデル (LLM) が、HRI のゼロショット ヒューマン モデルとして機能する可能性を探ります。
3 つの社会データセットに対する私たちの実験では、有望な結果が得られました。
LLM は、専用モデルと同等のパフォーマンスを達成できます。
そうは言っても、プロンプトに対する感度や空間的/数値的推論の誤りなど、現在の制限についても説明します。
私たちの発見に基づいて、LLM ベースの人体モデルをソーシャル ロボットの計画プロセスにどのように統合し、HRI シナリオに適用できるかを示します。
具体的には、信頼ベースのテーブルクリアタスクのシミュレーションに関する 1 つのケーススタディを紹介し、カスタム モデルに依存した過去の結果を再現します。
次に、新しいロボット器具通過実験 (n = 65) を実施します。この実験では、LLM ベースの人体モデルを使用して計画を立てると、基本的な近視計画よりも効果が得られることが暫定結果で示されました。
要約すると、私たちの結果は、LLM が HRI の人間モデリングに対して有望な (しかし不完全な) アプローチを提供することを示しています。

要約(オリジナル)

Human models play a crucial role in human-robot interaction (HRI), enabling robots to consider the impact of their actions on people and plan their behavior accordingly. However, crafting good human models is challenging; capturing context-dependent human behavior requires significant prior knowledge and/or large amounts of interaction data, both of which are difficult to obtain. In this work, we explore the potential of large-language models (LLMs) — which have consumed vast amounts of human-generated text data — to act as zero-shot human models for HRI. Our experiments on three social datasets yield promising results; the LLMs are able to achieve performance comparable to purpose-built models. That said, we also discuss current limitations, such as sensitivity to prompts and spatial/numerical reasoning mishaps. Based on our findings, we demonstrate how LLM-based human models can be integrated into a social robot’s planning process and applied in HRI scenarios. Specifically, we present one case study on a simulated trust-based table-clearing task and replicate past results that relied on custom models. Next, we conduct a new robot utensil-passing experiment (n = 65) where preliminary results show that planning with a LLM-based human model can achieve gains over a basic myopic plan. In summary, our results show that LLMs offer a promising (but incomplete) approach to human modeling for HRI.

arxiv情報

著者 Bowen Zhang,Harold Soh
発行日 2024-10-02 00:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG, cs.RO | コメントする

Improving Zero-Shot ObjectNav with Generative Communication

要約

我々は、潜在的に利用可能な環境認識をナビゲーション支援に利用することを目的とした、ゼロショット ObjectNav を改善するための新しい方法を提案します。
私たちのアプローチでは、地上職員の視界が制限され、場合によっては視界が遮られる可能性があることを考慮しています。
私たちの定式化は、ターゲット オブジェクトを含むグローバル ビューを持つ支援オーバーヘッド エージェントと難読化されたビューを持つ地上エージェント間の生成コミュニケーション (GC) を促進します。
どちらも、視覚から言語への翻訳のための視覚言語モデル (VLM) を備えています。
この支援セットアップでは、地上エージェントがターゲットに向かってアクションを実行する前に、実体エージェントが環境情報を通信します。
オーバーヘッドエージェントがターゲットに対して全体的な視野を持っているにもかかわらず、完全に協力的な支援スキームのパフォーマンスが、支援なしのベースラインと比較して低下していることに注目します(OSRで-13%、SPLで-13%)。
対照的に、地上エージェントが独立した探索行動を維持する選択的支援スキームでは、10% の OSR と 7.65% の SPL の改善が示されています。
ナビゲーションのパフォーマンスを説明するために、GC の固有の特性を分析し、幻覚と協力の存在を定量化します。
具体的には、具体化された設定における先制幻覚の新しい言語的特徴を特定し、地上エージェントがまだ移動していないときに地上エージェントが対話でアクションを実行したと頭上エージェントが想定し、そのナビゲーションパフォーマンスとの強い相関関係に注目します。
私たちは実際の実験を実施し、ObjectNav のパフォーマンスを向上させるための迅速な微調整によって幻覚を軽減する定性的な例をいくつか紹介します。

要約(オリジナル)

We propose a new method for improving zero-shot ObjectNav that aims to utilize potentially available environmental percepts for navigational assistance. Our approach takes into account that the ground agent may have limited and sometimes obstructed view. Our formulation encourages Generative Communication (GC) between an assistive overhead agent with a global view containing the target object and the ground agent with an obfuscated view; both equipped with Vision-Language Models (VLMs) for vision-to-language translation. In this assisted setup, the embodied agents communicate environmental information before the ground agent executes actions towards a target. Despite the overhead agent having a global view with the target, we note a drop in performance (-13% in OSR and -13% in SPL) of a fully cooperative assistance scheme over an unassisted baseline. In contrast, a selective assistance scheme where the ground agent retains its independent exploratory behaviour shows a 10% OSR and 7.65% SPL improvement. To explain navigation performance, we analyze the GC for unique traits, quantifying the presence of hallucination and cooperation. Specifically, we identify the novel linguistic trait of preemptive hallucination in our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move, and note its strong correlation with navigation performance. We conduct real-world experiments and present some qualitative examples where we mitigate hallucinations via prompt finetuning to improve ObjectNav performance.

arxiv情報

著者 Vishnu Sashank Dorbala,Vishnu Dutt Sharma,Pratap Tokekar,Dinesh Manocha
発行日 2024-10-02 01:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Effective Tuning Strategies for Generalist Robot Manipulation Policies

要約

汎用的なロボット操作ポリシー (GMP) は、幅広いタスク、デバイス、環境にわたって一般化できる可能性があります。
しかし、既存の政策は、広範に多様な領域をカバーするのに十分な行動データを収集することが本質的に難しいため、配布不能シナリオに引き続き苦戦しています。
微調整は、限られたサンプルで新しいドメインやタスクに GMP を迅速に適応させる実用的な方法を提供しますが、結果として得られる GMP のパフォーマンスは、微調整戦略の設計選択に関して大きく異なることが観察されています。
この研究では、まず詳細な実証研究を実施して、アクションスペース、政策責任者、監督シグナル、調整可能なパラメータの選択をカバーするGMPの微調整戦略における主要な要素の影響を調査します。そこでは2,500のロールアウトが評価されます。
単一の構成。
私たちは体系的に議論して調査結果を要約し、重要な設計の選択肢を特定します。これは、GMP の微調整のための実用的なガイドラインを提供すると信じています。
慎重に選択された微調整戦略を使用した低データ領域では、GMP が最先端の模倣学習アルゴリズムを大幅に上回るパフォーマンスを示していることがわかります。
この研究で提示された結果は、微調整された GMP に関する将来の研究のための新しいベースラインを確立し、コミュニティの GMP ツールボックスに重要な追加を提供します。

要約(オリジナル)

Generalist robot manipulation policies (GMPs) have the potential to generalize across a wide range of tasks, devices, and environments. However, existing policies continue to struggle with out-of-distribution scenarios due to the inherent difficulty of collecting sufficient action data to cover extensively diverse domains. While fine-tuning offers a practical way to quickly adapt a GMPs to novel domains and tasks with limited samples, we observe that the performance of the resulting GMPs differs significantly with respect to the design choices of fine-tuning strategies. In this work, we first conduct an in-depth empirical study to investigate the effect of key factors in GMPs fine-tuning strategies, covering the action space, policy head, supervision signal and the choice of tunable parameters, where 2,500 rollouts are evaluated for a single configuration. We systematically discuss and summarize our findings and identify the key design choices, which we believe give a practical guideline for GMPs fine-tuning. We observe that in a low-data regime, with carefully chosen fine-tuning strategies, a GMPs significantly outperforms the state-of-the-art imitation learning algorithms. The results presented in this work establish a new baseline for future studies on fine-tuned GMPs, and provide a significant addition to the GMPs toolbox for the community.

arxiv情報

著者 Wenbo Zhang,Yang Li,Yanyuan Qiao,Siyuan Huang,Jiajun Liu,Feras Dayoub,Xiao Ma,Lingqiao Liu
発行日 2024-10-02 04:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

Towards Efficient Moion Planning for UAVs: Lazy A* Search with Motion Primitives

要約

検索ベースの動作計画アルゴリズムは、無人航空機 (UAV) に広く利用されています。
ただし、これらのアルゴリズムを実際の UAV に展開するには、搭載された計算リソースが限られているため、課題に直面します。
アルゴリズムは、高次元の探索空間で解を見つけるのに苦労し、軌道が動的に実行可能であることを確認するのにかなりの時間を必要とします。
この論文では、UAV 上で衝突のない動的に実行可能な軌道をリアルタイムで計画するという重要な問題に対処するために、検索ベースの計画アルゴリズムに遅延探索の概念を組み込んでいます。
遅延探索動作計画アルゴリズムが最適な軌道を効率的に見つけ、計算効率を大幅に向上できることを実証します。

要約(オリジナル)

Search-based motion planning algorithms have been widely utilized for unmanned aerial vehicles (UAVs). However, deploying these algorithms on real UAVs faces challenges due to limited onboard computational resources. The algorithms struggle to find solutions in high-dimensional search spaces and require considerable time to ensure that the trajectories are dynamically feasible. This paper incorporates the lazy search concept into search-based planning algorithms to address the critical issue of real-time planning for collision-free and dynamically feasible trajectories on UAVs. We demonstrate that the lazy search motion planning algorithm can efficiently find optimal trajectories and significantly improve computational efficiency.

arxiv情報

著者 Wentao Wang,Yi Shen,Kaiyang Chen,Kaifan Lu
発行日 2024-10-02 04:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

High and Low Resolution Tradeoffs in Roadside Multimodal Sensing

要約

インテリジェントな交通アプリケーション向けの路側センシングを設計するには、特に高解像度センサーと低解像度センサーのどちらかを選択する場合、コストとパフォーマンスのバランスをとる必要があります。
センサーの異質性により、トレードオフは困難であり、センサーが異なれば物理的原理が異なるため、独自のデータ モダリティが生成されます。
高解像度の LiDAR は詳細な点群を提供し、4D ミリ波レーダーは、提供するデータがまばらであるにもかかわらず、移動パターンに基づいて物体を区別するのに役立つ速度情報を提供します。
特に車両と交通弱者 (VRU) の両方を認識する際に、空間解像度の低下がセンサーの豊富な情報によって補えるかどうかを評価するために、3D オブジェクト検出用のマルチモーダル データを融合する Residual Fusion Net (ResFusionNet) を提案します。
これにより、さまざまなモダリティにわたる空間解像度と情報の豊富さの間の定量化可能なトレードオフが可能になります。
さらに、環境または人間関連の要因の影響を受けるセンサーの可視性の不確実性を管理するために、確率モデリングを利用したセンサー配置アルゴリズムを導入します。
実世界のテストベッドでのシミュレーション支援による事前評価を通じて、速度エンコードされたレーダーと LiDAR を組み合わせた場合、VRU の検出がわずかに向上することがわかりました。歩行者では平均 16.7%、自転車では 11% でした。
LiDAR のみの構成に。
さらに、300 回の実行による実験結果では、不確実性要因によりセンサー カバレッジの最大損失が 11.5%、平均で 5.25% であることが明らかになりました。
これらの発見は、空間分解能は低いが情報量が豊富なセンサーを使用して、交通弱者に対する検出機能を強化できる可能性を強調するとともに、実際のアプリケーションでセンサーをトレードオフする際には、センサーモダリティの異質性、交通参加者の多様性、運用の不確実性を徹底的に評価する必要性を強調しています。

要約(オリジナル)

Designing roadside sensing for intelligent transportation applications requires balancing cost and performance,especially when choosing between high and low-resolution sensors. The tradeoff is challenging due to sensor heterogeneity,where different sensors produce unique data modalities due to varying physical principles. High-resolution LiDAR offers detailed point cloud, while 4D millimeter-wave radar, despite providing sparser data, delivers velocity information useful for distinguishing objects based on movement patterns. To assess whether reductions in spatial resolution can be compensated by the informational richness of sensors, particularly in recognizing both vehicles and vulnerable road users (VRUs), we propose Residual Fusion Net (ResFusionNet) to fuse multimodal data for 3D object detection. This enables a quantifiable tradeoff between spatial resolution and information richness across different modalities. Furthermore, we introduce a sensor placement algorithm utilizing probabilistic modeling to manage uncertainties in sensor visibility influenced by environmental or human-related factors. Through simulation-assisted ex-ante evaluation on a real-world testbed, our findings show marked marginal gains in detecting VRUs–an average of 16.7% for pedestrians and 11% for cyclists–when merging velocity-encoded radar with LiDAR, compared to LiDAR only configurations. Additionally, experimental results from 300 runs reveal a maximum loss of 11.5% and a average of 5.25% in sensor coverage due to uncertainty factors. These findings underscore the potential of using low spatial resolution but information-rich sensors to enhance detection capabilities for vulnerable road users while highlighting the necessity of thoroughly evaluating sensor modality heterogeneity, traffic participant diversity, and operational uncertainties when making sensor tradeoffs in practical applications.

arxiv情報

著者 Shaozu Ding,Yihong Tang,Marco De Vincenzi,Dajiang Suo
発行日 2024-10-02 05:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする