Flow Matching Imitation Learning for Multi-Support Manipulation

要約

ヒューマノイドロボットは、上半身をサポート接触に使用することで、作業スペース、安定性、および接触の多い作業や押す作業を実行する能力を強化することで恩恵を受ける可能性があります。
この論文では、最適化ベースの多接触全身コントローラーと、模倣学習用のマルチモーダル軌道分布を生成できる最近導入された手法であるフロー マッチングを組み合わせた統合アプローチを提案します。
シミュレーションでは、フロー マッチングが拡散や従来の動作クローン作成よりもロボット工学に適していることを示します。
実際のフルサイズの人型ロボット (Talos) を使用して、私たちのアプローチが全身を使って掴みにくい箱を押すタスクを学習できること、およびロボットがバランスを取るために必要なときに空いた手で接触を追加することで食器洗い機の引き出しを閉めることができることを実証しました。
また、遠隔操作支援のための共有自律モードも導入し、デモンストレーションでカバーされていないタスクの自動連絡先配置を提供します。
完全な実験ビデオは、https://hucebot.github.io/flow_multisupport_website/ から入手できます。

要約(オリジナル)

Humanoid robots could benefit from using their upper bodies for support contacts, enhancing their workspace, stability, and ability to perform contact-rich and pushing tasks. In this paper, we propose a unified approach that combines an optimization-based multi-contact whole-body controller with Flow Matching, a recently introduced method capable of generating multi-modal trajectory distributions for imitation learning. In simulation, we show that Flow Matching is more appropriate for robotics than Diffusion and traditional behavior cloning. On a real full-size humanoid robot (Talos), we demonstrate that our approach can learn a whole-body non-prehensile box-pushing task and that the robot can close dishwasher drawers by adding contacts with its free hand when needed for balance. We also introduce a shared autonomy mode for assisted teleoperation, providing automatic contact placement for tasks not covered in the demonstrations. Full experimental videos are available at: https://hucebot.github.io/flow_multisupport_website/

arxiv情報

著者 Quentin Rouxel,Andrea Ferrari,Serena Ivaldi,Jean-Baptiste Mouret
発行日 2024-10-21 08:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Flow Matching Imitation Learning for Multi-Support Manipulation はコメントを受け付けていません

Generalizing Motion Planners with Mixture of Experts for Autonomous Driving

要約

大規模な現実世界の運転データセットは、自動運転のためのデータ駆動型モーション プランナーのさまざまな側面に関する重要な研究を引き起こしました。
これらには、データ拡張、モデル アーキテクチャ、報酬設計、トレーニング戦略、プランナー パイプラインが含まれます。
これらのプランナーは、複雑でショット数が少ないケースに対して、以前の方法よりも優れた一般化を約束します。
ただし、実験結果では、これらのアプローチの多くは、過度に複雑な設計やトレーニング パラダイムにより、計画パフォーマンスの一般化能力が限られていることが示されています。
このペーパーでは、一般化に焦点を当てて以前の方法をレビューし、ベンチマークします。
実験結果は、モデルが適切にスケーリングされると、多くの設計要素が冗長になることを示しています。
StateTransformer-2 (STR2) は、Vision Transformer (ViT) エンコーダーと Mixed of Experts (MoE) 因果的 Transformer アーキテクチャを使用する、スケーラブルなデコーダー専用モーション プランナーです。
MoE バックボーンは、トレーニング中のエキスパート ルーティングによるモダリティの崩壊と報酬のバランスに対処します。
NuPlan データセットに対する広範な実験により、私たちの方法がさまざまなテスト セットや閉ループ シミュレーションにわたって以前のアプローチよりも一般化できることがわかりました。
さらに、何十億もの実際の都市部の運転シナリオでそのスケーラビリティを評価し、データとモデルのサイズの両方が増大するにつれて一貫して精度が向上することを実証しました。

要約(オリジナル)

Large real-world driving datasets have sparked significant research into various aspects of data-driven motion planners for autonomous driving. These include data augmentation, model architecture, reward design, training strategies, and planner pipelines. These planners promise better generalizations on complicated and few-shot cases than previous methods. However, experiment results show that many of these approaches produce limited generalization abilities in planning performance due to overly complex designs or training paradigms. In this paper, we review and benchmark previous methods focusing on generalizations. The experimental results indicate that as models are appropriately scaled, many design elements become redundant. We introduce StateTransformer-2 (STR2), a scalable, decoder-only motion planner that uses a Vision Transformer (ViT) encoder and a mixture-of-experts (MoE) causal Transformer architecture. The MoE backbone addresses modality collapse and reward balancing by expert routing during training. Extensive experiments on the NuPlan dataset show that our method generalizes better than previous approaches across different test sets and closed-loop simulations. Furthermore, we assess its scalability on billions of real-world urban driving scenarios, demonstrating consistent accuracy improvements as both data and model size grow.

arxiv情報

著者 Qiao Sun,Huimin Wang,Jiahao Zhan,Fan Nie,Xin Wen,Leimeng Xu,Kun Zhan,Peng Jia,Xianpeng Lang,Hang Zhao
発行日 2024-10-21 08:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Generalizing Motion Planners with Mixture of Experts for Autonomous Driving はコメントを受け付けていません

WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction

要約

3D セマンティック占有予測は自動運転に不可欠な部分であり、シーンの幾何学的詳細をキャプチャすることに重点を置いています。
オフロード環境には幾何学的情報が豊富であるため、そのようなシーンを再構成する 3D セマンティック占有予測タスクに適しています。
ただし、ほとんどの研究はオンロード環境に集中しており、関連するデータセットやベンチマークが不足しているため、オフロード 3D セマンティック占有予測用に設計された方法はほとんどありません。
このギャップに対応して、私たちの知る限り、オフロード 3D セマンティック占有予測タスクに高密度占有アノテーションを提供する最初のベンチマークである WildOcc を導入しました。
この論文では、より現実的な結果を達成するために粗いものから細かいものへの再構成を採用するグランド トゥルース生成パイプラインを提案します。
さらに、マルチフレーム画像と点群からの時空間情報をボクセルレベルで融合する、マルチモーダル 3D セマンティック占有予測フレームワークを導入します。
さらに、点群から画像特徴に幾何学的知識を転送するクロスモダリティ蒸留機能が導入されています。

要約(オリジナル)

3D semantic occupancy prediction is an essential part of autonomous driving, focusing on capturing the geometric details of scenes. Off-road environments are rich in geometric information, therefore it is suitable for 3D semantic occupancy prediction tasks to reconstruct such scenes. However, most of researches concentrate on on-road environments, and few methods are designed for off-road 3D semantic occupancy prediction due to the lack of relevant datasets and benchmarks. In response to this gap, we introduce WildOcc, to our knowledge, the first benchmark to provide dense occupancy annotations for off-road 3D semantic occupancy prediction tasks. A ground truth generation pipeline is proposed in this paper, which employs a coarse-to-fine reconstruction to achieve a more realistic result. Moreover, we introduce a multi-modal 3D semantic occupancy prediction framework, which fuses spatio-temporal information from multi-frame images and point clouds at voxel level. In addition, a cross-modality distillation function is introduced, which transfers geometric knowledge from point clouds to image features.

arxiv情報

著者 Heng Zhai,Jilin Mei,Chen Min,Liang Chen,Fangzhou Zhao,Yu Hu
発行日 2024-10-21 09:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction はコメントを受け付けていません

Design of a Flexible Robot Arm for Safe Aerial Physical Interaction

要約

この論文では、空中物理的相互作用のための軽量性とエネルギー散逸を組み合わせた新しい準拠メカニズムを紹介します。
離陸時の重量は 400g で、この機構は体前方に作動し、力の相互作用やその他のさまざまな空中操作タスクの正確な位置制御を可能にします。
閉ループ運動チェーンとして構造化されたロボット アームは、移送された 2 つのサーボモーターを使用します。
各関節は単一の腱で作動し、エンドエフェクターでのアームの圧縮におけるアクティブな動作制御を実現します。
弾性機械設計により重量が軽減され、柔軟性がもたらされるため、モーターの完全性に影響を与えることなくパッシブ準拠の相互作用が可能になります。
特に、アームの減衰は、提案された内部摩擦バルジに基づいて調整できます。
実験的アプリケーションは、自由飛行と物理的相互作用の両方における航空システムのパフォーマンスを示します。
提示された研究は、対話中に摂動を受ける実際の環境において \ac{MAV} のより安全なアプリケーションを開く可能性があります。

要約(オリジナル)

This paper introduces a novel compliant mechanism combining lightweight and energy dissipation for aerial physical interaction. Weighting 400~g at take-off, the mechanism is actuated in the forward body direction, enabling precise position control for force interaction and various other aerial manipulation tasks. The robotic arm, structured as a closed-loop kinematic chain, employs two deported servomotors. Each joint is actuated with a single tendon for active motion control in compression of the arm at the end-effector. Its elasto-mechanical design reduces weight and provides flexibility, allowing passive-compliant interactions without impacting the motors’ integrity. Notably, the arm’s damping can be adjusted based on the proposed inner frictional bulges. Experimental applications showcase the aerial system performance in both free-flight and physical interaction. The presented work may open safer applications for \ac{MAV} in real environments subject to perturbations during interaction.

arxiv情報

著者 Julien Mellet,Andrea Berra,Achilleas Santi Seisa,Viswa Sankaranarayanan,Udayanga G. W. K. N. Gamage,Miguel Angel Trujillo Soto,Guillermo Heredia,George Nikolakopoulos,Vincenzo Lippiello,Fabio Ruggiero
発行日 2024-10-21 09:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Design of a Flexible Robot Arm for Safe Aerial Physical Interaction はコメントを受け付けていません

The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations

要約

タスク パラメーター化ガウス混合モデル (TP-GMM) は、オブジェクト中心のロボット操作タスクを学習するためのサンプル効率の高い方法です。
ただし、TP-GMM を実際に適用するには、いくつかの未解決の課題があります。
この取り組みでは、3 つの重要な課題に相乗的に取り組みます。
まず、エンドエフェクターの速度は非ユークリッドであるため、標準的な GMM を使用してモデル化するのは困難です。
したがって、ロボットのエンドエフェクター速度を方向と大きさに因数分解し、リーマン GMM を使用してモデル化することを提案します。
2 番目に、因数分解された速度を活用して、複雑なデモンストレーションの軌跡からスキルをセグメント化して順序付けします。
セグメンテーションを通じて、スキルの軌道をさらに調整し、時間を強力な誘導バイアスとして活用します。
第三に、視覚的観察からスキルごとに関連するタスクパラメータを自動的に検出する方法を紹介します。
私たちのアプローチでは、RGB-D 観察のみを使用しながら、わずか 5 つのデモンストレーションから複雑な操作タスクを学習できます。
RLBench での広範な実験評価により、当社のアプローチがサンプル効率を 20 倍向上させて最先端のパフォーマンスを達成できることが実証されました。
私たちのポリシーは、さまざまな環境、オブジェクト インスタンス、オブジェクトの位置にわたって一般化され、学習したスキルは再利用可能です。

要約(オリジナル)

Task Parametrized Gaussian Mixture Models (TP-GMM) are a sample-efficient method for learning object-centric robot manipulation tasks. However, there are several open challenges to applying TP-GMMs in the wild. In this work, we tackle three crucial challenges synergistically. First, end-effector velocities are non-Euclidean and thus hard to model using standard GMMs. We thus propose to factorize the robot’s end-effector velocity into its direction and magnitude, and model them using Riemannian GMMs. Second, we leverage the factorized velocities to segment and sequence skills from complex demonstration trajectories. Through the segmentation, we further align skill trajectories and hence leverage time as a powerful inductive bias. Third, we present a method to automatically detect relevant task parameters per skill from visual observations. Our approach enables learning complex manipulation tasks from just five demonstrations while using only RGB-D observations. Extensive experimental evaluations on RLBench demonstrate that our approach achieves state-of-the-art performance with 20-fold improved sample efficiency. Our policies generalize across different environments, object instances, and object positions, while the learned skills are reusable.

arxiv情報

著者 Jan Ole von Hartz,Tim Welschehold,Abhinav Valada,Joschka Boedecker
発行日 2024-10-21 09:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations はコメントを受け付けていません

Flying through Moving Gates without Full State Estimation

要約

自律型ドローンレースには強力な認識、計画、制御が必要であり、自律的で機敏な飛行のベンチマークおよびテストフィールドとなっています。
既存の研究では、通常、既知のマップを備えた静的なレース トラックを想定しています。これにより、最適な時間の軌道をオフラインで計画し、ゲートへの位置特定を実行して、状態推定や特定の目標の学習ベースの方法のトレーニングのための視覚慣性オドメトリ (VIO) のドリフトを削減できます。
レーストラックと動作環境。
対照的に、災害対応や配送などの現実世界のタスクの多くは、未知の動的な環境で実行する必要があります。
このギャップを埋め、目に見えない環境や動くゲートに対してドローンレースをより堅牢にするために、レーストラックマップやVIOを必要とせず、ゲートまでの視線(LOS)の単眼測定のみを使用する制御アルゴリズムを提案します。
この目的のために、ゲートの動きや風にもかかわらずゲートを正確に通過するために比例航法 (PN) の法則を採用しています。
ドローンレース用の PN 情報に基づいたビジョンベースの制御問題を制約付き最適化問題として定式化し、閉形式の最適解を導き出します。
私たちは、広範なシミュレーションと実際の実験を通じて、この方法がさまざまなゲートの動き、モデルエラー、風、遅延に対して堅牢でありながら、移動するゲートを高速でナビゲートできることを実証しました。

要約(オリジナル)

Autonomous drone racing requires powerful perception, planning, and control and has become a benchmark and test field for autonomous, agile flight. Existing work usually assumes static race tracks with known maps, which enables offline planning of time-optimal trajectories, performing localization to the gates to reduce the drift in visual-inertial odometry (VIO) for state estimation or training learning-based methods for the particular race track and operating environment. In contrast, many real-world tasks like disaster response or delivery need to be performed in unknown and dynamic environments. To close this gap and make drone racing more robust against unseen environments and moving gates, we propose a control algorithm that does not require a race track map or VIO and uses only monocular measurements of the line of sight (LOS) to the gates. For this purpose, we adopt the law of proportional navigation (PN) to accurately fly through the gates despite gate motions or wind. We formulate the PN-informed vision-based control problem for drone racing as a constrained optimization problem and derive a closed-form optimal solution. We demonstrate through extensive simulations and real-world experiments that our method can navigate through moving gates at high speeds while being robust to different gate movements, model errors, wind, and delays.

arxiv情報

著者 Ralf Römer,Tim Emmert,Angela P. Schoellig
発行日 2024-10-21 09:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Flying through Moving Gates without Full State Estimation はコメントを受け付けていません

Assisted Physical Interaction: Autonomous Aerial Robots with Neural Network Detection, Navigation, and Safety Layers

要約

この論文では、産業環境における安全かつ自律的な空中物理的インタラクションのための新しいフレームワークを紹介します。
これは、オンボードの計算負荷を軽減するためにエッジ コンピューティングで強化されたニューラル ネットワーク ベースの目標検出システムと、安全で正確な操縦を実現するコントロール バリア機能 (CBF) ベースのコントローラーの 2 つの主要コンポーネントで構成されます。
ターゲット検出システムは、厳しい視覚条件下でデータセット上でトレーニングされ、変化する照明条件に伴うさまざまな目に見えないデータ全体の精度を評価します。
奥行き機能はターゲットの姿勢推定に利用され、検出フレームワーク全体が低遅延のエッジ コンピューティングにオフロードされます。
CBF ベースのコントローラーにより、UAV はターゲットに安全に収束し、正確に接触することができます。
コントローラーとターゲット検出の両方のシミュレーション評価が、実際の検出パフォーマンスの分析とともに表示されます。

要約(オリジナル)

The paper introduces a novel framework for safe and autonomous aerial physical interaction in industrial settings. It comprises two main components: a neural network-based target detection system enhanced with edge computing for reduced onboard computational load, and a control barrier function (CBF)-based controller for safe and precise maneuvering. The target detection system is trained on a dataset under challenging visual conditions and evaluated for accuracy across various unseen data with changing lighting conditions. Depth features are utilized for target pose estimation, with the entire detection framework offloaded into low-latency edge computing. The CBF-based controller enables the UAV to converge safely to the target for precise contact. Simulated evaluations of both the controller and target detection are presented, alongside an analysis of real-world detection performance.

arxiv情報

著者 Andrea Berra,Viswa Narayanan Sankaranarayanan,Achilleas Santi Seisa,Julien Mellet,Udayanga G. W. K. N. Gamage,Sumeet Gajanan Satpute,Fabio Ruggiero,Vincenzo Lippiello,Silvia Tolu,Matteo Fumagalli,George Nikolakopoulos,Miguel Ángel Trujillo Soto,Guillermo Heredia
発行日 2024-10-21 09:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | Assisted Physical Interaction: Autonomous Aerial Robots with Neural Network Detection, Navigation, and Safety Layers はコメントを受け付けていません

Long-distance Geomagnetic Navigation in GNSS-denied Environments with Deep Reinforcement Learning

要約

地磁気ナビゲーションは、複雑な環境をナビゲートできる能力と、全地球測位衛星システム (GNSS) などの外部ナビゲーション サービスから独立しているため、ますます注目を集めています。
地磁気ナビゲーションに関する既存の研究、つまりマッチングナビゲーションとバイオニックナビゲーションは、事前に保存された地図または広範な検索に依存しているため、未踏の領域での適用性が制限されたり、ナビゲーション効率が低下したりします。
GNSS が利用できない地域における地磁気ナビゲーションの問題に対処するために、この論文では、特に長距離の地磁気ナビゲーションのための深層強化学習 (DRL) ベースのメカニズムを開発します。
この設計されたメカニズムは、事前に保存された地図や大規模で高価な検索アプローチを使用するのではなく、地磁気ナビゲーションのための磁気受信能力を学習して獲得するようにエージェントを訓練します。
特に、地磁気勾配に基づく平行アプローチを地磁気ナビゲーションに統合します。
この統合により、取得された勾配が目的地に向かって揃うように地磁気勾配を調整することで、学習エージェントの過剰探索が軽減されます。
提案されたアプローチの有効性を詳細な数値シミュレーションを通じて調査し、提案されたアプローチを実現する際にツイン遅延深決定性政策勾配(TD3)を実装します。
この結果は、私たちのアプローチが、多様なナビゲーション条件下での長距離ミッションにおいて、既存のメタヒューリスティックおよびバイオニックナビゲーション手法を上回るパフォーマンスを発揮することを示しています。

要約(オリジナル)

Geomagnetic navigation has drawn increasing attention with its capacity in navigating through complex environments and its independence from external navigation services like global navigation satellite systems (GNSS). Existing studies on geomagnetic navigation, i.e., matching navigation and bionic navigation, rely on pre-stored map or extensive searches, leading to limited applicability or reduced navigation efficiency in unexplored areas. To address the issues with geomagnetic navigation in areas where GNSS is unavailable, this paper develops a deep reinforcement learning (DRL)-based mechanism, especially for long-distance geomagnetic navigation. The designed mechanism trains an agent to learn and gain the magnetoreception capacity for geomagnetic navigation, rather than using any pre-stored map or extensive and expensive searching approaches. Particularly, we integrate the geomagnetic gradient-based parallel approach into geomagnetic navigation. This integration mitigates the over-exploration of the learning agent by adjusting the geomagnetic gradient, such that the obtained gradient is aligned towards the destination. We explore the effectiveness of the proposed approach via detailed numerical simulations, where we implement twin delayed deep deterministic policy gradient (TD3) in realizing the proposed approach. The results demonstrate that our approach outperforms existing metaheuristic and bionic navigation methods in long-distance missions under diverse navigation conditions.

arxiv情報

著者 Wenqi Bai,Xiaohui Zhang,Shiliang Zhang,Songnan Yang,Yushuai Li,Tingwen Huang
発行日 2024-10-21 09:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Long-distance Geomagnetic Navigation in GNSS-denied Environments with Deep Reinforcement Learning はコメントを受け付けていません

Task-oriented Robotic Manipulation with Vision Language Models

要約

視覚言語モデル (VLM) は、ロボットが物体とその周囲の視覚的特性を理解し解釈できるようにすることで、ロボット操作において重要な役割を果たし、このマルチモーダルな理解に基づいて操作を実行できるようにします。
ただし、オブジェクトの属性と空間関係を理解することは簡単な作業ではありませんが、ロボット操作タスクでは重要です。
この研究では、空間関係と属性割り当てに焦点を当てた新しいデータセットと、VLM を利用してタスク指向の高レベル入力によるオブジェクト操作を実行する新しい方法を紹介します。
このデータセットでは、オブジェクト間の空間関係がキャプションとして手動で記述されます。
さらに、各オブジェクトには、微調整された視覚言語モデルから派生した、脆弱性、質量、材質、透明度などの複数の属性が付けられます。
キャプションから埋め込まれたオブジェクト情報は自動的に抽出され、各画像内のオブジェクト間の空間関係を捉えるデータ構造 (この場合はデモンストレーション用のツリー) に変換されます。
次に、ツリー構造はオブジェクト属性とともに言語モデルに入力され、特定の (高レベルの) タスクを達成するためにこれらのオブジェクトをどのように編成するかを決定する新しいツリー構造に変換されます。
私たちは、私たちの方法が視覚環境内のオブジェクト間の空間関係の理解を改善するだけでなく、ロボットがこれらのオブジェクトとより効果的に対話できるようにすることを実証します。
結果として、このアプローチはロボット操作タスクにおける空間推論を大幅に強化します。
私たちの知る限り、これは文献にあるこの種の最初の方法であり、ロボットが周囲の物体をより効率的に整理して利用できるようにする新しいソリューションを提供します。

要約(オリジナル)

Vision-Language Models (VLMs) play a crucial role in robotic manipulation by enabling robots to understand and interpret the visual properties of objects and their surroundings, allowing them to perform manipulation based on this multimodal understanding. However, understanding object attributes and spatial relationships is a non-trivial task but is critical in robotic manipulation tasks. In this work, we present a new dataset focused on spatial relationships and attribute assignment and a novel method to utilize VLMs to perform object manipulation with task-oriented, high-level input. In this dataset, the spatial relationships between objects are manually described as captions. Additionally, each object is labeled with multiple attributes, such as fragility, mass, material, and transparency, derived from a fine-tuned vision language model. The embedded object information from captions are automatically extracted and transformed into a data structure (in this case, tree, for demonstration purposes) that captures the spatial relationships among the objects within each image. The tree structures, along with the object attributes, are then fed into a language model to transform into a new tree structure that determines how these objects should be organized in order to accomplish a specific (high-level) task. We demonstrate that our method not only improves the comprehension of spatial relationships among objects in the visual environment but also enables robots to interact with these objects more effectively. As a result, this approach significantly enhances spatial reasoning in robotic manipulation tasks. To our knowledge, this is the first method of its kind in the literature, offering a novel solution that allows robots to more efficiently organize and utilize objects in their surroundings.

arxiv情報

著者 Nurhan Bulus Guran,Hanchi Ren,Jingjing Deng,Xianghua Xie
発行日 2024-10-21 10:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Task-oriented Robotic Manipulation with Vision Language Models はコメントを受け付けていません

Robust Loop Closure by Textual Cues in Challenging Environments

要約

ループの閉鎖はロボットのナビゲーションにおける重要なタスクです。
ただし、既存の方法はほとんどの場合、環境の暗黙的またはヒューリスティックな機能に依存しており、廊下、トンネル、倉庫などの一般的な環境では依然として機能しない可能性があります。
実際、このような特徴のない、変性的で反復的な (FDR) 環境でのナビゲーションは、人間にとってさえ大きな課題となりますが、多くの場合、周囲にある明示的なテキストの手がかりが最良の支援を提供します。
このことから、FDR 環境で人間が判読できる明示的なテキスト キューに基づいたマルチモーダル ループ クロージャー手法を提案するようになりました。
具体的には、私たちのアプローチはまず光学式文字認識 (OCR) に基づいてシーン テキスト エンティティを抽出し、次に正確な LiDAR オドメトリに基づいてテキスト キューのローカル マップを作成し、最後にグラフ理論スキームによってループ クロージャ イベントを識別します。
実験結果は、このアプローチが視覚センサーと LiDAR センサーのみに依存する既存の方法よりも優れたパフォーマンスを備えていることを示しています。
コミュニティに利益をもたらすために、ソース コードとデータセットを \url{https://github.com/TongxingJin/TXTLCD} でリリースします。

要約(オリジナル)

Loop closure is an important task in robot navigation. However, existing methods mostly rely on some implicit or heuristic features of the environment, which can still fail to work in common environments such as corridors, tunnels, and warehouses. Indeed, navigating in such featureless, degenerative, and repetitive (FDR) environments would also pose a significant challenge even for humans, but explicit text cues in the surroundings often provide the best assistance. This inspires us to propose a multi-modal loop closure method based on explicit human-readable textual cues in FDR environments. Specifically, our approach first extracts scene text entities based on Optical Character Recognition (OCR), then creates a local map of text cues based on accurate LiDAR odometry and finally identifies loop closure events by a graph-theoretic scheme. Experiment results demonstrate that this approach has superior performance over existing methods that rely solely on visual and LiDAR sensors. To benefit the community, we release the source code and datasets at \url{https://github.com/TongxingJin/TXTLCD}.

arxiv情報

著者 Tongxing Jin,Thien-Minh Nguyen,Xinhang Xu,Yizhuo Yang,Shenghai Yuan,Jianping Li,Lihua Xie
発行日 2024-10-21 10:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Loop Closure by Textual Cues in Challenging Environments はコメントを受け付けていません