The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations

要約

タスク パラメーター化ガウス混合モデル (TP-GMM) は、オブジェクト中心のロボット操作タスクを学習するためのサンプル効率の高い方法です。
ただし、TP-GMM を実際に適用するには、いくつかの未解決の課題があります。
この取り組みでは、3 つの重要な課題に相乗的に取り組みます。
まず、エンドエフェクターの速度は非ユークリッドであるため、標準的な GMM を使用してモデル化するのは困難です。
したがって、ロボットのエンドエフェクター速度を方向と大きさに因数分解し、リーマン GMM を使用してモデル化することを提案します。
2 番目に、因数分解された速度を活用して、複雑なデモンストレーションの軌跡からスキルをセグメント化して順序付けします。
セグメンテーションを通じて、スキルの軌道をさらに調整し、時間を強力な誘導バイアスとして活用します。
第三に、視覚的観察からスキルごとに関連するタスクパラメータを自動的に検出する方法を紹介します。
私たちのアプローチでは、RGB-D 観察のみを使用しながら、わずか 5 つのデモンストレーションから複雑な操作タスクを学習できます。
RLBench での広範な実験評価により、当社のアプローチがサンプル効率を 20 倍向上させて最先端のパフォーマンスを達成できることが実証されました。
私たちのポリシーは、さまざまな環境、オブジェクト インスタンス、オブジェクトの位置にわたって一般化され、学習したスキルは再利用可能です。

要約(オリジナル)

Task Parametrized Gaussian Mixture Models (TP-GMM) are a sample-efficient method for learning object-centric robot manipulation tasks. However, there are several open challenges to applying TP-GMMs in the wild. In this work, we tackle three crucial challenges synergistically. First, end-effector velocities are non-Euclidean and thus hard to model using standard GMMs. We thus propose to factorize the robot’s end-effector velocity into its direction and magnitude, and model them using Riemannian GMMs. Second, we leverage the factorized velocities to segment and sequence skills from complex demonstration trajectories. Through the segmentation, we further align skill trajectories and hence leverage time as a powerful inductive bias. Third, we present a method to automatically detect relevant task parameters per skill from visual observations. Our approach enables learning complex manipulation tasks from just five demonstrations while using only RGB-D observations. Extensive experimental evaluations on RLBench demonstrate that our approach achieves state-of-the-art performance with 20-fold improved sample efficiency. Our policies generalize across different environments, object instances, and object positions, while the learned skills are reusable.

arxiv情報

著者 Jan Ole von Hartz,Tim Welschehold,Abhinav Valada,Joschka Boedecker
発行日 2024-10-21 09:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations はコメントを受け付けていません

Flying through Moving Gates without Full State Estimation

要約

自律型ドローンレースには強力な認識、計画、制御が必要であり、自律的で機敏な飛行のベンチマークおよびテストフィールドとなっています。
既存の研究では、通常、既知のマップを備えた静的なレース トラックを想定しています。これにより、最適な時間の軌道をオフラインで計画し、ゲートへの位置特定を実行して、状態推定や特定の目標の学習ベースの方法のトレーニングのための視覚慣性オドメトリ (VIO) のドリフトを削減できます。
レーストラックと動作環境。
対照的に、災害対応や配送などの現実世界のタスクの多くは、未知の動的な環境で実行する必要があります。
このギャップを埋め、目に見えない環境や動くゲートに対してドローンレースをより堅牢にするために、レーストラックマップやVIOを必要とせず、ゲートまでの視線(LOS)の単眼測定のみを使用する制御アルゴリズムを提案します。
この目的のために、ゲートの動きや風にもかかわらずゲートを正確に通過するために比例航法 (PN) の法則を採用しています。
ドローンレース用の PN 情報に基づいたビジョンベースの制御問題を制約付き最適化問題として定式化し、閉形式の最適解を導き出します。
私たちは、広範なシミュレーションと実際の実験を通じて、この方法がさまざまなゲートの動き、モデルエラー、風、遅延に対して堅牢でありながら、移動するゲートを高速でナビゲートできることを実証しました。

要約(オリジナル)

Autonomous drone racing requires powerful perception, planning, and control and has become a benchmark and test field for autonomous, agile flight. Existing work usually assumes static race tracks with known maps, which enables offline planning of time-optimal trajectories, performing localization to the gates to reduce the drift in visual-inertial odometry (VIO) for state estimation or training learning-based methods for the particular race track and operating environment. In contrast, many real-world tasks like disaster response or delivery need to be performed in unknown and dynamic environments. To close this gap and make drone racing more robust against unseen environments and moving gates, we propose a control algorithm that does not require a race track map or VIO and uses only monocular measurements of the line of sight (LOS) to the gates. For this purpose, we adopt the law of proportional navigation (PN) to accurately fly through the gates despite gate motions or wind. We formulate the PN-informed vision-based control problem for drone racing as a constrained optimization problem and derive a closed-form optimal solution. We demonstrate through extensive simulations and real-world experiments that our method can navigate through moving gates at high speeds while being robust to different gate movements, model errors, wind, and delays.

arxiv情報

著者 Ralf Römer,Tim Emmert,Angela P. Schoellig
発行日 2024-10-21 09:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Flying through Moving Gates without Full State Estimation はコメントを受け付けていません

Assisted Physical Interaction: Autonomous Aerial Robots with Neural Network Detection, Navigation, and Safety Layers

要約

この論文では、産業環境における安全かつ自律的な空中物理的インタラクションのための新しいフレームワークを紹介します。
これは、オンボードの計算負荷を軽減するためにエッジ コンピューティングで強化されたニューラル ネットワーク ベースの目標検出システムと、安全で正確な操縦を実現するコントロール バリア機能 (CBF) ベースのコントローラーの 2 つの主要コンポーネントで構成されます。
ターゲット検出システムは、厳しい視覚条件下でデータセット上でトレーニングされ、変化する照明条件に伴うさまざまな目に見えないデータ全体の精度を評価します。
奥行き機能はターゲットの姿勢推定に利用され、検出フレームワーク全体が低遅延のエッジ コンピューティングにオフロードされます。
CBF ベースのコントローラーにより、UAV はターゲットに安全に収束し、正確に接触することができます。
コントローラーとターゲット検出の両方のシミュレーション評価が、実際の検出パフォーマンスの分析とともに表示されます。

要約(オリジナル)

The paper introduces a novel framework for safe and autonomous aerial physical interaction in industrial settings. It comprises two main components: a neural network-based target detection system enhanced with edge computing for reduced onboard computational load, and a control barrier function (CBF)-based controller for safe and precise maneuvering. The target detection system is trained on a dataset under challenging visual conditions and evaluated for accuracy across various unseen data with changing lighting conditions. Depth features are utilized for target pose estimation, with the entire detection framework offloaded into low-latency edge computing. The CBF-based controller enables the UAV to converge safely to the target for precise contact. Simulated evaluations of both the controller and target detection are presented, alongside an analysis of real-world detection performance.

arxiv情報

著者 Andrea Berra,Viswa Narayanan Sankaranarayanan,Achilleas Santi Seisa,Julien Mellet,Udayanga G. W. K. N. Gamage,Sumeet Gajanan Satpute,Fabio Ruggiero,Vincenzo Lippiello,Silvia Tolu,Matteo Fumagalli,George Nikolakopoulos,Miguel Ángel Trujillo Soto,Guillermo Heredia
発行日 2024-10-21 09:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | Assisted Physical Interaction: Autonomous Aerial Robots with Neural Network Detection, Navigation, and Safety Layers はコメントを受け付けていません

Long-distance Geomagnetic Navigation in GNSS-denied Environments with Deep Reinforcement Learning

要約

地磁気ナビゲーションは、複雑な環境をナビゲートできる能力と、全地球測位衛星システム (GNSS) などの外部ナビゲーション サービスから独立しているため、ますます注目を集めています。
地磁気ナビゲーションに関する既存の研究、つまりマッチングナビゲーションとバイオニックナビゲーションは、事前に保存された地図または広範な検索に依存しているため、未踏の領域での適用性が制限されたり、ナビゲーション効率が低下したりします。
GNSS が利用できない地域における地磁気ナビゲーションの問題に対処するために、この論文では、特に長距離の地磁気ナビゲーションのための深層強化学習 (DRL) ベースのメカニズムを開発します。
この設計されたメカニズムは、事前に保存された地図や大規模で高価な検索アプローチを使用するのではなく、地磁気ナビゲーションのための磁気受信能力を学習して獲得するようにエージェントを訓練します。
特に、地磁気勾配に基づく平行アプローチを地磁気ナビゲーションに統合します。
この統合により、取得された勾配が目的地に向かって揃うように地磁気勾配を調整することで、学習エージェントの過剰探索が軽減されます。
提案されたアプローチの有効性を詳細な数値シミュレーションを通じて調査し、提案されたアプローチを実現する際にツイン遅延深決定性政策勾配(TD3)を実装します。
この結果は、私たちのアプローチが、多様なナビゲーション条件下での長距離ミッションにおいて、既存のメタヒューリスティックおよびバイオニックナビゲーション手法を上回るパフォーマンスを発揮することを示しています。

要約(オリジナル)

Geomagnetic navigation has drawn increasing attention with its capacity in navigating through complex environments and its independence from external navigation services like global navigation satellite systems (GNSS). Existing studies on geomagnetic navigation, i.e., matching navigation and bionic navigation, rely on pre-stored map or extensive searches, leading to limited applicability or reduced navigation efficiency in unexplored areas. To address the issues with geomagnetic navigation in areas where GNSS is unavailable, this paper develops a deep reinforcement learning (DRL)-based mechanism, especially for long-distance geomagnetic navigation. The designed mechanism trains an agent to learn and gain the magnetoreception capacity for geomagnetic navigation, rather than using any pre-stored map or extensive and expensive searching approaches. Particularly, we integrate the geomagnetic gradient-based parallel approach into geomagnetic navigation. This integration mitigates the over-exploration of the learning agent by adjusting the geomagnetic gradient, such that the obtained gradient is aligned towards the destination. We explore the effectiveness of the proposed approach via detailed numerical simulations, where we implement twin delayed deep deterministic policy gradient (TD3) in realizing the proposed approach. The results demonstrate that our approach outperforms existing metaheuristic and bionic navigation methods in long-distance missions under diverse navigation conditions.

arxiv情報

著者 Wenqi Bai,Xiaohui Zhang,Shiliang Zhang,Songnan Yang,Yushuai Li,Tingwen Huang
発行日 2024-10-21 09:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Long-distance Geomagnetic Navigation in GNSS-denied Environments with Deep Reinforcement Learning はコメントを受け付けていません

Task-oriented Robotic Manipulation with Vision Language Models

要約

視覚言語モデル (VLM) は、ロボットが物体とその周囲の視覚的特性を理解し解釈できるようにすることで、ロボット操作において重要な役割を果たし、このマルチモーダルな理解に基づいて操作を実行できるようにします。
ただし、オブジェクトの属性と空間関係を理解することは簡単な作業ではありませんが、ロボット操作タスクでは重要です。
この研究では、空間関係と属性割り当てに焦点を当てた新しいデータセットと、VLM を利用してタスク指向の高レベル入力によるオブジェクト操作を実行する新しい方法を紹介します。
このデータセットでは、オブジェクト間の空間関係がキャプションとして手動で記述されます。
さらに、各オブジェクトには、微調整された視覚言語モデルから派生した、脆弱性、質量、材質、透明度などの複数の属性が付けられます。
キャプションから埋め込まれたオブジェクト情報は自動的に抽出され、各画像内のオブジェクト間の空間関係を捉えるデータ構造 (この場合はデモンストレーション用のツリー) に変換されます。
次に、ツリー構造はオブジェクト属性とともに言語モデルに入力され、特定の (高レベルの) タスクを達成するためにこれらのオブジェクトをどのように編成するかを決定する新しいツリー構造に変換されます。
私たちは、私たちの方法が視覚環境内のオブジェクト間の空間関係の理解を改善するだけでなく、ロボットがこれらのオブジェクトとより効果的に対話できるようにすることを実証します。
結果として、このアプローチはロボット操作タスクにおける空間推論を大幅に強化します。
私たちの知る限り、これは文献にあるこの種の最初の方法であり、ロボットが周囲の物体をより効率的に整理して利用できるようにする新しいソリューションを提供します。

要約(オリジナル)

Vision-Language Models (VLMs) play a crucial role in robotic manipulation by enabling robots to understand and interpret the visual properties of objects and their surroundings, allowing them to perform manipulation based on this multimodal understanding. However, understanding object attributes and spatial relationships is a non-trivial task but is critical in robotic manipulation tasks. In this work, we present a new dataset focused on spatial relationships and attribute assignment and a novel method to utilize VLMs to perform object manipulation with task-oriented, high-level input. In this dataset, the spatial relationships between objects are manually described as captions. Additionally, each object is labeled with multiple attributes, such as fragility, mass, material, and transparency, derived from a fine-tuned vision language model. The embedded object information from captions are automatically extracted and transformed into a data structure (in this case, tree, for demonstration purposes) that captures the spatial relationships among the objects within each image. The tree structures, along with the object attributes, are then fed into a language model to transform into a new tree structure that determines how these objects should be organized in order to accomplish a specific (high-level) task. We demonstrate that our method not only improves the comprehension of spatial relationships among objects in the visual environment but also enables robots to interact with these objects more effectively. As a result, this approach significantly enhances spatial reasoning in robotic manipulation tasks. To our knowledge, this is the first method of its kind in the literature, offering a novel solution that allows robots to more efficiently organize and utilize objects in their surroundings.

arxiv情報

著者 Nurhan Bulus Guran,Hanchi Ren,Jingjing Deng,Xianghua Xie
発行日 2024-10-21 10:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Task-oriented Robotic Manipulation with Vision Language Models はコメントを受け付けていません

Robust Loop Closure by Textual Cues in Challenging Environments

要約

ループの閉鎖はロボットのナビゲーションにおける重要なタスクです。
ただし、既存の方法はほとんどの場合、環境の暗黙的またはヒューリスティックな機能に依存しており、廊下、トンネル、倉庫などの一般的な環境では依然として機能しない可能性があります。
実際、このような特徴のない、変性的で反復的な (FDR) 環境でのナビゲーションは、人間にとってさえ大きな課題となりますが、多くの場合、周囲にある明示的なテキストの手がかりが最良の支援を提供します。
このことから、FDR 環境で人間が判読できる明示的なテキスト キューに基づいたマルチモーダル ループ クロージャー手法を提案するようになりました。
具体的には、私たちのアプローチはまず光学式文字認識 (OCR) に基づいてシーン テキスト エンティティを抽出し、次に正確な LiDAR オドメトリに基づいてテキスト キューのローカル マップを作成し、最後にグラフ理論スキームによってループ クロージャ イベントを識別します。
実験結果は、このアプローチが視覚センサーと LiDAR センサーのみに依存する既存の方法よりも優れたパフォーマンスを備えていることを示しています。
コミュニティに利益をもたらすために、ソース コードとデータセットを \url{https://github.com/TongxingJin/TXTLCD} でリリースします。

要約(オリジナル)

Loop closure is an important task in robot navigation. However, existing methods mostly rely on some implicit or heuristic features of the environment, which can still fail to work in common environments such as corridors, tunnels, and warehouses. Indeed, navigating in such featureless, degenerative, and repetitive (FDR) environments would also pose a significant challenge even for humans, but explicit text cues in the surroundings often provide the best assistance. This inspires us to propose a multi-modal loop closure method based on explicit human-readable textual cues in FDR environments. Specifically, our approach first extracts scene text entities based on Optical Character Recognition (OCR), then creates a local map of text cues based on accurate LiDAR odometry and finally identifies loop closure events by a graph-theoretic scheme. Experiment results demonstrate that this approach has superior performance over existing methods that rely solely on visual and LiDAR sensors. To benefit the community, we release the source code and datasets at \url{https://github.com/TongxingJin/TXTLCD}.

arxiv情報

著者 Tongxing Jin,Thien-Minh Nguyen,Xinhang Xu,Yizhuo Yang,Shenghai Yuan,Jianping Li,Lihua Xie
発行日 2024-10-21 10:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Loop Closure by Textual Cues in Challenging Environments はコメントを受け付けていません

Safety-critical Control with Control Barrier Functions: A Hierarchical Optimization Framework

要約

コントロール バリア機能 (CBF) は、その発明以来、セーフティ クリティカルなシステム設計における基本的なツールとなっています。
通常、二次最適化フレームワークは、CBF、制御リアプノフ関数 (CLF)、その他の制約および公称制御設計に対応するために使用されます。
ただし、制約付き最適化フレームワークには、さまざまな目的と制約をトレードオフするためのハイパーパラメーターが含まれており、事前に適切に調整していないと、システムのパフォーマンスに影響を与え、実行不能につながることもあります。
この論文では、安全第一のアプローチで多目的最適化問題をネストされた最適化サブ問題に分解する階層的最適化フレームワークを提案します。
新しいフレームワークは、安全性とパフォーマンスを可能な限り確保することを前提として、潜在的な実行不可能性に対処し、複数の証明書の場合に簡単に適用できます。
鮮明な視覚化支援機能を使用して、安全性、実現可能性、収束率の観点から、既存の QP ベースの手法と比較した提案手法の利点を系統的に分析します。
さらに、解析を検証し、提案手法の優位性を示す 2 つの数値例が提供されています。

要約(オリジナル)

The control barrier function (CBF) has become a fundamental tool in safety-critical systems design since its invention. Typically, the quadratic optimization framework is employed to accommodate CBFs, control Lyapunov functions (CLFs), other constraints and nominal control design. However, the constrained optimization framework involves hyper-parameters to tradeoff different objectives and constraints, which, if not well-tuned beforehand, impact system performance and even lead to infeasibility. In this paper, we propose a hierarchical optimization framework that decomposes the multi-objective optimization problem into nested optimization sub-problems in a safety-first approach. The new framework addresses potential infeasibility on the premise of ensuring safety and performance as much as possible and applies easily in multi-certificate cases. With vivid visualization aids, we systematically analyze the advantages of our proposed method over existing QP-based ones in terms of safety, feasibility and convergence rates. Moreover, two numerical examples are provided that verify our analysis and show the superiority of our proposed method.

arxiv情報

著者 Junjun Xie,Liang Hu,Jiahu Qin,Jun Yang,Huijun Gao
発行日 2024-10-21 10:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | Safety-critical Control with Control Barrier Functions: A Hierarchical Optimization Framework はコメントを受け付けていません

Triplane Grasping: Efficient 6-DoF Grasping with Single RGB Images

要約

物体を確実に把握することは、ロボット工学における基本的なタスクの 1 つです。
しかし、限られた視覚情報と現実世界のオブジェクトの複雑さのため、単一画像入力に基づいて把握ポーズを決定することは長い間課題でした。
この論文では、入力として 1 つの RGB のみの画像のみに依存する高速把握意思決定手法である Triplane Grasping を提案します。
Triplane Grasping は、ポイント デコーダとトリプレーン デコーダを通じてハイブリッド トリプレーン ガウス 3D 表現を作成します。これにより、リアルタイムの把握要件を満たすために把握されるオブジェクトの効率的かつ高品質な再構築が生成されます。
エンドツーエンドのネットワークを使用して、潜在的な把握接触として点群内の 3D 点から直接 6-DoF 平行ジョー把握分布を生成し、観測データに把握ポーズを固定することを提案します。
実験は、私たちの方法が日常の物体の迅速なモデリングと把握姿勢の意思決定を達成し、ゼロショットシナリオで高い把握成功率を示すことを示しています。

要約(オリジナル)

Reliable object grasping is one of the fundamental tasks in robotics. However, determining grasping pose based on single-image input has long been a challenge due to limited visual information and the complexity of real-world objects. In this paper, we propose Triplane Grasping, a fast grasping decision-making method that relies solely on a single RGB-only image as input. Triplane Grasping creates a hybrid Triplane-Gaussian 3D representation through a point decoder and a triplane decoder, which produce an efficient and high-quality reconstruction of the object to be grasped to meet real-time grasping requirements. We propose to use an end-to-end network to generate 6-DoF parallel-jaw grasp distributions directly from 3D points in the point cloud as potential grasp contacts and anchor the grasp pose in the observed data. Experiments demonstrate that our method achieves rapid modeling and grasping pose decision-making for daily objects, and exhibits a high grasping success rate in zero-shot scenarios.

arxiv情報

著者 Yiming Li,Hanchi Ren,Jingjing Deng,Xianghua Xie
発行日 2024-10-21 10:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Triplane Grasping: Efficient 6-DoF Grasping with Single RGB Images はコメントを受け付けていません

Distributed Learning for UAV Swarms

要約

無人航空機 (UAV) の群れは、環境モニタリングや監視などの用途のために、動的でデータが豊富な環境にますます導入されています。
これらのシナリオでは、プライバシーとセキュリティを維持しながら効率的なデータ処理が必要となるため、Federated Learning (FL) が有望なソリューションとなります。
FL を使用すると、UAV は生データを共有せずにグローバル モデルを共同でトレーニングできますが、UAV によって収集されたデータの非独立かつ同一分散 (非 IID) の性質により課題が生じます。
この研究では、最先端の FL 手法の UAV Swarm アプリケーションへの統合を示し、特に非依存性の問題への取り組みに焦点を当てて、複数の集計手法 (つまり、FedAvg、FedProx、FedOpt、および MOON) のパフォーマンスを調査します。
さまざまなデータセットに関する IID、特にベースライン パフォーマンスには MNIST、自然物体分類には CIFAR10、環境モニタリングには EuroSAT、監視には CelebA を使用します。
これらのアルゴリズムは、クライアント側の更新とグローバル集約の両方に関する改良された技術をカバーするために選択されました。
結果は、すべてのアルゴリズムが IID データに対して同等のパフォーマンスを発揮する一方で、非 IID 条件下ではパフォーマンスが大幅に低下することを示しています。
FedProx は全体的なパフォーマンスが最も安定していることを実証し、ローカル モデルの大幅な逸脱を軽減するために非 IID 環境でローカル更新を定期化することの重要性を強調しました。

要約(オリジナル)

Unmanned Aerial Vehicle (UAV) swarms are increasingly deployed in dynamic, data-rich environments for applications such as environmental monitoring and surveillance. These scenarios demand efficient data processing while maintaining privacy and security, making Federated Learning (FL) a promising solution. FL allows UAVs to collaboratively train global models without sharing raw data, but challenges arise due to the non-Independent and Identically Distributed (non-IID) nature of the data collected by UAVs. In this study, we show an integration of the state-of-the-art FL methods to UAV Swarm application and invetigate the performance of multiple aggregation methods (namely FedAvg, FedProx, FedOpt, and MOON) with a particular focus on tackling non-IID on a variety of datasets, specifically MNIST for baseline performance, CIFAR10 for natural object classification, EuroSAT for environment monitoring, and CelebA for surveillance. These algorithms were selected to cover improved techniques on both client-side updates and global aggregation. Results show that while all algorithms perform comparably on IID data, their performance deteriorates significantly under non-IID conditions. FedProx demonstrated the most stable overall performance, emphasising the importance of regularising local updates in non-IID environments to mitigate drastic deviations in local models.

arxiv情報

著者 Chen Hu,Hanchi Ren,Jingjing Deng,Xianghua Xie
発行日 2024-10-21 11:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Distributed Learning for UAV Swarms はコメントを受け付けていません

UADA3D: Unsupervised Adversarial Domain Adaptation for 3D Object Detection with Sparse LiDAR and Large Domain Gaps

要約

この研究では、確立された高密度の自動運転データセット間での適応に主に焦点を当ててきた、LiDAR ベースの 3D 物体検出に関する既存の教師なしドメイン適応アプローチのギャップに対処します。
私たちは、よりまばらな点群に焦点を当て、さまざまな視点からシナリオをキャプチャします。道路上の車両だけでなく、大幅に異なる環境条件やセンサー構成に遭遇する歩道上の移動ロボットからも同様です。
3D オブジェクト検出のための教師なし敵対的ドメイン適応 (UADA3D) を導入します。
UADA3D は、事前トレーニングされたソース モデルや教師と生徒のアーキテクチャには依存しません。
代わりに、敵対的なアプローチを使用して、ドメイン不変の特徴を直接学習します。
私たちはさまざまな適応シナリオでその有効性を実証し、自動運転車と移動ロボットの両方の領域で大幅な改善が見られることを示しています。
私たちのコードはオープンソースであり、間もなく公開される予定です。

要約(オリジナル)

In this study, we address a gap in existing unsupervised domain adaptation approaches on LiDAR-based 3D object detection, which have predominantly concentrated on adapting between established, high-density autonomous driving datasets. We focus on sparser point clouds, capturing scenarios from different perspectives: not just from vehicles on the road but also from mobile robots on sidewalks, which encounter significantly different environmental conditions and sensor configurations. We introduce Unsupervised Adversarial Domain Adaptation for 3D Object Detection (UADA3D). UADA3D does not depend on pre-trained source models or teacher-student architectures. Instead, it uses an adversarial approach to directly learn domain-invariant features. We demonstrate its efficacy in various adaptation scenarios, showing significant improvements in both self-driving car and mobile robot domains. Our code is open-source and will be available soon.

arxiv情報

著者 Maciej K Wozniak,Mattias Hansson,Marko Thiel,Patric Jensfelt
発行日 2024-10-21 11:34:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | UADA3D: Unsupervised Adversarial Domain Adaptation for 3D Object Detection with Sparse LiDAR and Large Domain Gaps はコメントを受け付けていません