Grounding Robot Policies with Visuomotor Language Guidance

要約

自然言語処理とコンピューター ビジョンの分野における最近の進歩により、大規模なインターネット データから世界の根底にある力学を理解する上で大きな可能性が示されています。
しかし、人間とロボットのインタラクションが不足していることと、現実世界のロボット データの大規模なデータセットが不足していることを考慮すると、この知識をロボット システムに変換することは依然として未解決の課題です。
行動クローニングや強化学習などのこれまでのロボット学習アプローチは、人間のデモンストレーションから、または特定の環境でゼロからロボットのスキルを学習する優れた能力を示してきました。
ただし、これらのアプローチでは、タスク固有のデモンストレーションや複雑なシミュレーション環境の設計が必要になることが多く、新しい設定に対する一般化可能で堅牢なポリシーの開発が制限されます。
これらの制限に対処することを目的として、視覚運動に基づいた言語ガイダンスを使用して現在のロボットとその環境の制約を考慮し、現在のコンテキストにロボットのポリシーを根付かせるためのエージェントベースのフレームワークを提案します。
提案されたフレームワークは、特定の役割、つまり高レベルのアドバイザー、視覚的グラウンディング、モニタリング、ロボット エージェント向けに設計された一連の会話型エージェントで構成されています。
基本ポリシーが与えられると、エージェントは実行時に集合的にガイダンスを生成し、基本ポリシーのアクション分布をより望ましい将来の状態に向けてシフトします。
私たちのアプローチは、人間による追加のデモンストレーションや広範な調査を必要とせずに、シミュレーションと現実世界の実験の両方で大幅に高い成功率を達成するために操作ポリシーを効果的に導くことができることを実証します。
https://sites.google.com/view/motorcortex/home でビデオを投影します。

要約(オリジナル)

Recent advances in the fields of natural language processing and computer vision have shown great potential in understanding the underlying dynamics of the world from large-scale internet data. However, translating this knowledge into robotic systems remains an open challenge, given the scarcity of human-robot interactions and the lack of large-scale datasets of real-world robotic data. Previous robot learning approaches such as behavior cloning and reinforcement learning have shown great capabilities in learning robotic skills from human demonstrations or from scratch in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for new settings. Aiming to address these limitations, we propose an agent-based framework for grounding robot policies to the current context, considering the constraints of a current robot and its environment using visuomotor-grounded language guidance. The proposed framework is composed of a set of conversational agents designed for specific roles — namely, high-level advisor, visual grounding, monitoring, and robotic agents. Given a base policy, the agents collectively generate guidance at run time to shift the action distribution of the base policy towards more desirable future states. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates both in simulation and in real-world experiments without the need for additional human demonstrations or extensive exploration. Project videos at https://sites.google.com/view/motorcortex/home.

arxiv情報

著者 Arthur Bucker,Pablo Ortega,Jonathan Francis,Jean Oh
発行日 2024-10-09 02:00:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Grounding Robot Policies with Visuomotor Language Guidance はコメントを受け付けていません

Overcoming Autoware-Ubuntu Incompatibility in Autonomous Driving Systems-Equipped Vehicles: Lessons Learned

要約

自動運転車は、交通システムに安全性と効率性を提供する需要に応じて急速に開発されています。
自動運転車はオープンソースのオペレーティング システムおよびコンピューティング システムに基づいて設計されているため、Ubuntu、Autoware、ロボット オペレーティング システム (ROS) で構成されるオペレーティング プラットフォームの構築を目的としたリソースが多数あります。
しかし、Autoware プラットフォームと自動運転システム搭載車両 (クライスラー パシフィカなど) にインストールされている Ubuntu オペレーティング システムとの間に互換性がないため、研究者がトラブルシューティングを実行するのに役立つ明確なガイドラインは存在しません。
この論文では、互換性のない問題を解決するためのトラブルシューティング プロセスから学んだ教訓に基づいて、Autoware プラットフォームを自動運転車のインターフェイスに統合する概要を示します。
トラブルシューティング プロセスは、自動運転システム搭載車両にインストールされている Ubuntu 20.04、Autoware.AI、および ROS Noetic ソフトウェアの非互換性と統合の問題の解決に基づいて説明されています。
具体的には、このペーパーでは、一般的な非互換性の問題と、Python の互換性、Compute Unified Device Architecture (CUDA) のインストール、Autoware のインストール、および Autoware.AI でのシミュレーションに関連するコード解決プロトコルに焦点を当てています。
この論文の目的は、自動運転車の動作干渉における非互換性の問題に対処する方法を紹介する、明確かつ詳細を重視したプレゼンテーションを提供することです。
この論文で紹介されている教訓と経験は、同様の問題に遭遇した研究者にとって役立ち、トラブルシューティング活動を実行したり、Ubuntu、Autoware、および ROS オペレーティング システムで ADS 関連プロジェクトを実装したりすることでフォローアップできます。

要約(オリジナル)

Autonomous vehicles have been rapidly developed as demand that provides safety and efficiency in transportation systems. As autonomous vehicles are designed based on open-source operating and computing systems, there are numerous resources aimed at building an operating platform composed of Ubuntu, Autoware, and Robot Operating System (ROS). However, no explicit guidelines exist to help scholars perform trouble-shooting due to incompatibility between the Autoware platform and Ubuntu operating systems installed in autonomous driving systems-equipped vehicles (i.e., Chrysler Pacifica). The paper presents an overview of integrating the Autoware platform into the autonomous vehicle’s interface based on lessons learned from trouble-shooting processes for resolving incompatible issues. The trouble-shooting processes are presented based on resolving the incompatibility and integration issues of Ubuntu 20.04, Autoware.AI, and ROS Noetic software installed in an autonomous driving systems-equipped vehicle. Specifically, the paper focused on common incompatibility issues and code-solving protocols involving Python compatibility, Compute Unified Device Architecture (CUDA) installation, Autoware installation, and simulation in Autoware.AI. The objective of the paper is to provide an explicit and detail-oriented presentation to showcase how to address incompatibility issues among an autonomous vehicle’s operating interference. The lessons and experience presented in the paper will be useful for researchers who encountered similar issues and could follow up by performing trouble-shooting activities and implementing ADS-related projects in the Ubuntu, Autoware, and ROS operating systems.

arxiv情報

著者 Dada Zhang,Md Ruman Islam,Pei-Chi Huang,Chun-Hsing Ho
発行日 2024-10-09 02:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.OS, cs.RO, cs.SE | Overcoming Autoware-Ubuntu Incompatibility in Autonomous Driving Systems-Equipped Vehicles: Lessons Learned はコメントを受け付けていません

BiC-MPPI: Goal-Pursuing, Sampling-Based Bidirectional Rollout Clustering Path Integral for Trajectory Optimization

要約

このペーパーでは、モデル予測パス積分 (MPPI) フレームワーク内の目標指向のガイダンスを強化することを目的とした新しい軌道最適化手法である、双方向クラスター MPPI (BiC-MPPI) アルゴリズムを紹介します。
BiC-MPPI には、双方向ダイナミクス近似と新しいガイド コスト メカニズムが組み込まれており、軌道計画と目標到達パフォーマンスの両方が向上します。
前方ロールアウトと後方ロールアウトを活用することで、双方向アプローチにより初期状態と最終状態の間の効果的な軌道接続が保証され、ガイド コストは動的に実行可能なパスの発見に役立ちます。
実験結果は、BiC-MPPI が 2D 環境と 3D 環境の両方で既存の MPPI バリアントよりも優れたパフォーマンスを示し、自律航行用に修正された BARN データセットでの 900 回のシミュレーション全体で、より高い成功率と競争力のある計算時間を達成することを示しています。
GitHub: https://github.com/i-ASL/BiC-MPPI

要約(オリジナル)

This paper introduces the Bidirectional Clustered MPPI (BiC-MPPI) algorithm, a novel trajectory optimization method aimed at enhancing goal-directed guidance within the Model Predictive Path Integral (MPPI) framework. BiC-MPPI incorporates bidirectional dynamics approximations and a new guide cost mechanism, improving both trajectory planning and goal-reaching performance. By leveraging forward and backward rollouts, the bidirectional approach ensures effective trajectory connections between initial and terminal states, while the guide cost helps discover dynamically feasible paths. Experimental results demonstrate that BiC-MPPI outperforms existing MPPI variants in both 2D and 3D environments, achieving higher success rates and competitive computation times across 900 simulations on a modified BARN dataset for autonomous navigation. GitHub: https://github.com/i-ASL/BiC-MPPI

arxiv情報

著者 Minchan Jung,Kwangki Kim
発行日 2024-10-09 02:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 13P25, 68T40, cs.AI, cs.RO, cs.SY, eess.SY, G.1.6, math.OC | BiC-MPPI: Goal-Pursuing, Sampling-Based Bidirectional Rollout Clustering Path Integral for Trajectory Optimization はコメントを受け付けていません

QuadBEV: An Efficient Quadruple-Task Perception Framework via Bird’s-Eye-View Representation

要約

Bird’s-Eye-View (BEV) 認識は、複数のセンサー入力を統一表現に統合し、さまざまな下流タスクのパフォーマンスを向上させる機能により、自動運転システムの重要なコンポーネントとなっています。
ただし、BEV モデルの計算要求は、リソースが限られた車両に実際に導入する場合に課題を引き起こします。
これらの制限に対処するために、3D オブジェクト検出、車線検出、マップ セグメンテーション、占有予測という 4 つの主要なタスクにわたって共有された空間情報とコンテキスト情報を活用する、効率的なマルチタスク認識フレームワークである QuadBEV を提案します。
QuadBEV は、共有バックボーンとタスク固有のヘッドを使用してこれらのタスクの統合を合理化するだけでなく、学習率の感度や競合するタスク目標などの一般的なマルチタスク学習の課題にも対処します。
私たちのフレームワークは冗長な計算を削減し、それによってシステム効率を向上させ、特に組み込みシステムに適しています。
QuadBEV の有効性と堅牢性を検証する包括的な実験を紹介し、現実世界のアプリケーションへの適合性を実証します。

要約(オリジナル)

Bird’s-Eye-View (BEV) perception has become a vital component of autonomous driving systems due to its ability to integrate multiple sensor inputs into a unified representation, enhancing performance in various downstream tasks. However, the computational demands of BEV models pose challenges for real-world deployment in vehicles with limited resources. To address these limitations, we propose QuadBEV, an efficient multitask perception framework that leverages the shared spatial and contextual information across four key tasks: 3D object detection, lane detection, map segmentation, and occupancy prediction. QuadBEV not only streamlines the integration of these tasks using a shared backbone and task-specific heads but also addresses common multitask learning challenges such as learning rate sensitivity and conflicting task objectives. Our framework reduces redundant computations, thereby enhancing system efficiency, making it particularly suited for embedded systems. We present comprehensive experiments that validate the effectiveness and robustness of QuadBEV, demonstrating its suitability for real-world applications.

arxiv情報

著者 Yuxin Li,Yiheng Li,Xulei Yang,Mengying Yu,Zihang Huang,Xiaojun Wu,Chai Kiat Yeo
発行日 2024-10-09 03:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | QuadBEV: An Efficient Quadruple-Task Perception Framework via Bird’s-Eye-View Representation はコメントを受け付けていません

Real-to-Sim Grasp: Rethinking the Gap between Simulation and Real World in Grasp Detection

要約

6-DoF 把握検出では、シミュレートされたデータを拡張してより強力なモデルをトレーニングできますが、シミュレーションと現実世界の間に大きなギャップがあるという課題に直面しています。
以前の作品は、シミュレーションから現実への方法でこのギャップを埋めました。
ただし、この方法では、把握検出器をトレーニングするときに、明示的または暗黙的にシミュレートされたデータをノイズの多い実際のデータに適応させることになります。カメラ ノイズ内の位置ドリフトや構造的歪みが把握学習に悪影響を及ぼします。
この研究では、R2SGrasp という名前の 6-DoF 掴み検出用の Real-to-Sim フレームワークを提案します。これは、掴み検出器のトレーニングでカメラ ノイズを直接バイパスする、Real-to-Sim の方法でこのギャップを埋めるという重要な洞察を備えています。
推論とリアルタイムのシミュレーションへの適応を通じて。
このリアルからシムへの適応を実現するために、当社の R2SGrasp は、データ レベルでリアル デプス マップのカメラ ノイズを軽減するためのリアルからシムへのデータ修復 (R2SRepairer) と、リアルからシムへの機能エンハンサー (R2SEnhancer) を設計します。
フィーチャレベルで正確にシミュレートされた幾何学的プリミティブを使用して実際のフィーチャを強化します。
フレームワークに一般化機能を持たせるために、把握検出器をトレーニングするための大規模なシミュレートされたデータセットをコスト効率よく構築します。これには、1,440 万の把握アノテーションを含む 64,000 の RGB-D 画像が含まれます。
十分な実験により、R2SGrasp が強力であり、現実からシミュレーションへの視点が効果的であることが示されています。
実際の実験では、R2SGrasp の優れた一般化能力がさらに示されています。
プロジェクトページは https://isee-laboratory.github.io/R2SGrasp から入手できます。

要約(オリジナル)

For 6-DoF grasp detection, simulated data is expandable to train more powerful model, but it faces the challenge of the large gap between simulation and real world. Previous works bridge this gap with a sim-to-real way. However, this way explicitly or implicitly forces the simulated data to adapt to the noisy real data when training grasp detectors, where the positional drift and structural distortion within the camera noise will harm the grasp learning. In this work, we propose a Real-to-Sim framework for 6-DoF Grasp detection, named R2SGrasp, with the key insight of bridging this gap in a real-to-sim way, which directly bypasses the camera noise in grasp detector training through an inference-time real-to-sim adaption. To achieve this real-to-sim adaptation, our R2SGrasp designs the Real-to-Sim Data Repairer (R2SRepairer) to mitigate the camera noise of real depth maps in data-level, and the Real-to-Sim Feature Enhancer (R2SEnhancer) to enhance real features with precise simulated geometric primitives in feature-level. To endow our framework with the generalization ability, we construct a large-scale simulated dataset cost-efficiently to train our grasp detector, which includes 64,000 RGB-D images with 14.4 million grasp annotations. Sufficient experiments show that R2SGrasp is powerful and our real-to-sim perspective is effective. The real-world experiments further show great generalization ability of R2SGrasp. Project page is available on https://isee-laboratory.github.io/R2SGrasp.

arxiv情報

著者 Jia-Feng Cai,Zibo Chen,Xiao-Ming Wu,Jian-Jian Jiang,Yi-Lin Wei,Wei-Shi Zheng
発行日 2024-10-09 03:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Real-to-Sim Grasp: Rethinking the Gap between Simulation and Real World in Grasp Detection はコメントを受け付けていません

Agile Mobility with Rapid Online Adaptation via Meta-learning and Uncertainty-aware MPPI

要約

最新の非線形モデルベースのコントローラーでは、モバイル ロボットを限界で制御できるように、正確な物理モデルとモデル パラメーターが必要です。
また、高速での表面の滑りにより、摩擦パラメーターが継続的に変化する可能性があり (自律走行レースにおけるタイヤの劣化など)、コントローラーが迅速に適応する必要がある場合があります。
多くの研究では、タスクにうまく機能するパラメーター適応スキームを備えたタスク固有のロボット モデルを導出していますが、プラットフォームやタスクごとに多大な労力と調整が必要です。
この研究では、メタ事前トレーニングに基づいた完全なモデル学習ベースのコントローラーを設計します。このコントローラーは、モデルの不確実性について推論しながら、数ショットのダイナミクス データを使用して、任意のモデル パラメーターを持つ車輪ベースのロボットに非常に迅速に適応できます。
小規模な数値シミュレーション、大規模な Unity シミュレーター、および幅広い設定を備えた中規模のハードウェア プラットフォームで結果を実証します。
私たちの結果は、ドメイン固有の適切に設計されたコントローラーと同等であり、すべてのシナリオにわたって優れた汎化パフォーマンスがあることを示しています。

要約(オリジナル)

Modern non-linear model-based controllers require an accurate physics model and model parameters to be able to control mobile robots at their limits. Also, due to surface slipping at high speeds, the friction parameters may continually change (like tire degradation in autonomous racing), and the controller may need to adapt rapidly. Many works derive a task-specific robot model with a parameter adaptation scheme that works well for the task but requires a lot of effort and tuning for each platform and task. In this work, we design a full model-learning-based controller based on meta pre-training that can very quickly adapt using few-shot dynamics data to any wheel-based robot with any model parameters, while also reasoning about model uncertainty. We demonstrate our results in small-scale numeric simulation, the large-scale Unity simulator, and on a medium-scale hardware platform with a wide range of settings. We show that our results are comparable to domain-specific well-engineered controllers, and have excellent generalization performance across all scenarios.

arxiv情報

著者 Dvij Kalaria,Haoru Xue,Wenli Xiao,Tony Tao,Guanya Shi,John M. Dolan
発行日 2024-10-09 05:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Agile Mobility with Rapid Online Adaptation via Meta-learning and Uncertainty-aware MPPI はコメントを受け付けていません

Disturbance Observer-based Control Barrier Functions with Residual Model Learning for Safe Reinforcement Learning

要約

強化学習 (RL) エージェントは、最適な行動を学習し、最大の報酬を達成するために環境を探索する必要があります。
ただし、実際のシステム上で RL を直接トレーニングする場合、探索には危険が伴う可能性がありますが、シミュレーションベースのトレーニングでは、シミュレーションと実際のギャップという厄介な問題が発生します。
最近のアプローチでは、コントロール バリア機能 (CBF) などの安全フィルターを利用して、RL トレーニング中に危険な行為を罰します。
ただし、CBF の強力な安全性保証は、正確な動的モデルに依存しています。
実際には、力学の誤差による内部擾乱や風などの外部擾乱など、不確実性が常に存在します。
この研究では、外乱拒否保護学習に基づいた新しい安全な RL フレームワークを提案します。これにより、想定される、しかし必ずしも正確ではない公称動的モデルを使用した、ほぼモデルフリーの RL が可能になります。
私たちは、ポイント ロボットとカー ロボットのセーフティ ジム ベンチマークで、残差モデル学習または外乱オブザーバー (DOB) のみを使用する最先端のアプローチを上回るすべてのタスクの結果を実証します。
さらに、物理的な F1/10 レーシング カーを使用してフレームワークの有効性を検証します。
ビデオ: https://sites.google.com/view/res-dob-cbf-rl

要約(オリジナル)

Reinforcement learning (RL) agents need to explore their environment to learn optimal behaviors and achieve maximum rewards. However, exploration can be risky when training RL directly on real systems, while simulation-based training introduces the tricky issue of the sim-to-real gap. Recent approaches have leveraged safety filters, such as control barrier functions (CBFs), to penalize unsafe actions during RL training. However, the strong safety guarantees of CBFs rely on a precise dynamic model. In practice, uncertainties always exist, including internal disturbances from the errors of dynamics and external disturbances such as wind. In this work, we propose a new safe RL framework based on disturbance rejection-guarded learning, which allows for an almost model-free RL with an assumed but not necessarily precise nominal dynamic model. We demonstrate our results on the Safety-gym benchmark for Point and Car robots on all tasks where we can outperform state-of-the-art approaches that use only residual model learning or a disturbance observer (DOB). We further validate the efficacy of our framework using a physical F1/10 racing car. Videos: https://sites.google.com/view/res-dob-cbf-rl

arxiv情報

著者 Dvij Kalaria,Qin Lin,John M. Dolan
発行日 2024-10-09 06:08:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Disturbance Observer-based Control Barrier Functions with Residual Model Learning for Safe Reinforcement Learning はコメントを受け付けていません

ES-Gaussian: Gaussian Splatting Mapping via Error Space-Based Gaussian Completion

要約

ロボットの効果的なナビゲーションとインタラクションには、正確かつ手頃な価格の屋内 3D 再構成が不可欠です。
従来の LiDAR ベースのマッピングは高精度を提供しますが、コストが高く、重く、電力を大量に消費し、新しいビューのレンダリングの能力が限られています。
ビジョンベースのマッピングは、費用対効果が高く、視覚データをキャプチャできますが、点群がまばらなため、高品質の 3D 再構成に苦労することがよくあります。
私たちは、高品質な屋内 3D 再構築のための低高度カメラとシングルライン LiDAR を使用するエンドツーエンド システムである ES-Gaussian を提案します。
当社のシステムは、2D エラー マップから幾何学的詳細が不十分な領域を特定して修正することで、まばらな点群を強化する Visual Error Construction (VEC) を備えています。
さらに、シングルライン LiDAR によってガイドされる新しい 3DGS 初期化方法を導入し、従来のマルチビュー設定の制限を克服し、リソースに制約のある環境で効果的な再構築を可能にします。
新しい Dreame-SR データセットと公開されているデータセットに関する広範な実験結果は、特に困難なシナリオにおいて、ES-Gaussian が既存の手法よりも優れていることを示しています。
プロジェクト ページは https://chenlu-china.github.io/ES-Gaussian/ から入手できます。

要約(オリジナル)

Accurate and affordable indoor 3D reconstruction is critical for effective robot navigation and interaction. Traditional LiDAR-based mapping provides high precision but is costly, heavy, and power-intensive, with limited ability for novel view rendering. Vision-based mapping, while cost-effective and capable of capturing visual data, often struggles with high-quality 3D reconstruction due to sparse point clouds. We propose ES-Gaussian, an end-to-end system using a low-altitude camera and single-line LiDAR for high-quality 3D indoor reconstruction. Our system features Visual Error Construction (VEC) to enhance sparse point clouds by identifying and correcting areas with insufficient geometric detail from 2D error maps. Additionally, we introduce a novel 3DGS initialization method guided by single-line LiDAR, overcoming the limitations of traditional multi-view setups and enabling effective reconstruction in resource-constrained environments. Extensive experimental results on our new Dreame-SR dataset and a publicly available dataset demonstrate that ES-Gaussian outperforms existing methods, particularly in challenging scenarios. The project page is available at https://chenlu-china.github.io/ES-Gaussian/.

arxiv情報

著者 Lu Chen,Yingfu Zeng,Haoang Li,Zhitao Deng,Jiafu Yan,Zhenjun Zhao
発行日 2024-10-09 07:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ES-Gaussian: Gaussian Splatting Mapping via Error Space-Based Gaussian Completion はコメントを受け付けていません

Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers

要約

この研究では、再ランキングのためのグローバル記述子とペア分類器を同時に学習する、視覚的場所認識 (VPR) のための新しい共同トレーニング方法を提案します。
ペア分類器は、指定された画像のペアが同じ場所からのものであるかどうかを予測できます。
ネットワークは、エンコーダーとペア分類器の両方の Vision Transformer コンポーネントのみで構成され、両方のコンポーネントはそれぞれのクラス トークンを使用してトレーニングされます。
既存の VPR 方法では、通常、ネットワークは ImageNet などの汎用画像データセットからの事前トレーニングされた重みを使用して初期化されます。
この研究では、事前トレーニング タスクとしてシャム マスク イメージ モデリングを使用する、代替の事前トレーニング戦略を提案します。
VPR 用に特別に調整された視覚的特徴を学習するために、モデルを事前トレーニングするために、大規模な VPR データセットのコレクションから場所を認識した画像サンプリング手順を提案します。
トレーニングの第 2 段階でマスク イメージ モデリングのエンコーダーとデコーダーの重みを再利用することにより、Pair-VPR は、ViT-B エンコーダーを使用して 5 つのベンチマーク データセットにわたって最先端の VPR パフォーマンスを達成し、さらにローカリゼーションを向上させることができます。
より大きなエンコーダーでリコールします。
ペア VPR の Web サイトは、https://csiro-robotics.github.io/Pair-VPR です。

要約(オリジナル)

In this work we propose a novel joint training method for Visual Place Recognition (VPR), which simultaneously learns a global descriptor and a pair classifier for re-ranking. The pair classifier can predict whether a given pair of images are from the same place or not. The network only comprises Vision Transformer components for both the encoder and the pair classifier, and both components are trained using their respective class tokens. In existing VPR methods, typically the network is initialized using pre-trained weights from a generic image dataset such as ImageNet. In this work we propose an alternative pre-training strategy, by using Siamese Masked Image Modelling as a pre-training task. We propose a Place-aware image sampling procedure from a collection of large VPR datasets for pre-training our model, to learn visual features tuned specifically for VPR. By re-using the Mask Image Modelling encoder and decoder weights in the second stage of training, Pair-VPR can achieve state-of-the-art VPR performance across five benchmark datasets with a ViT-B encoder, along with further improvements in localization recall with larger encoders. The Pair-VPR website is: https://csiro-robotics.github.io/Pair-VPR.

arxiv情報

著者 Stephen Hausler,Peyman Moghadam
発行日 2024-10-09 07:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers はコメントを受け付けていません

Task Coordination and Trajectory Optimization for Multi-Aerial Systems via Signal Temporal Logic: A Wind Turbine Inspection Study

要約

この論文では、風力タービンの検査に焦点を当て、マルチコプタードローンのフリートを使用した共同検査ミッションにおけるタスクの割り当てと軌道生成の方法を紹介します。
このアプローチは、信号時間論理 (STL) 仕様に基づいて最適化問題を定式化することにより、時間に敏感な制約と車両の制限を遵守する安全で実現可能な飛行経路を生成します。
イベントトリガーの再計画メカニズムは予期せぬイベントや遅延に対処し、一般化された堅牢性スコアリング手法はユーザーの好みを組み込んでタスクの競合を最小限に抑えます。
このアプローチは、MATLAB と Gazebo でのシミュレーション、およびモックアップ シナリオでのフィールド実験を通じて検証されます。

要約(オリジナル)

This paper presents a method for task allocation and trajectory generation in cooperative inspection missions using a fleet of multirotor drones, with a focus on wind turbine inspection. The approach generates safe, feasible flight paths that adhere to time-sensitive constraints and vehicle limitations by formulating an optimization problem based on Signal Temporal Logic (STL) specifications. An event-triggered replanning mechanism addresses unexpected events and delays, while a generalized robustness scoring method incorporates user preferences and minimizes task conflicts. The approach is validated through simulations in MATLAB and Gazebo, as well as field experiments in a mock-up scenario.

arxiv情報

著者 Giuseppe Silano,Alvaro Caballero,Davide Liuzza,Luigi Iannelli,Stjepan Bogdan,Martin Saska
発行日 2024-10-09 07:16:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Task Coordination and Trajectory Optimization for Multi-Aerial Systems via Signal Temporal Logic: A Wind Turbine Inspection Study はコメントを受け付けていません