Active Fine-Tuning of Generalist Policies

要約

事前トレーニングされたジェネラリスト ポリシーは、新しいドメイン内タスクへの迅速な適応が期待できるため、ロボット学習における関連性が急速に高まっています。
この適応は、多くの場合、関心のある特定のタスクに対する新しいデモンストレーションを収集し、行動のクローニングなどの模倣学習アルゴリズムを適用することに依存します。
ただし、いくつかのタスクを学習する必要がある場合は、どのタスクをどのくらいの頻度でデモンストレーションするかを決定する必要があります。
私たちはこのマルチタスクの問題を研究し、エージェントがデモンストレーションするタスクを適応的に選択する対話型フレームワークを探索します。
我々は、専門家政策に関する最大の情報利得をもたらすデモンストレーションを収集することによって、限られたデモンストレーション予算の下でマルチタスク政策のパフォーマンスを最大化するアルゴリズムであるAMF(Active Multi-task Fine-tuning)を提案します。
私たちは、規則性の仮定の下で AMF のパフォーマンス保証を導き出し、複雑で高次元の環境でニューラル ポリシーを効率的に微調整するための AMF の経験的有効性を実証します。

要約(オリジナル)

Pre-trained generalist policies are rapidly gaining relevance in robot learning due to their promise of fast adaptation to novel, in-domain tasks. This adaptation often relies on collecting new demonstrations for a specific task of interest and applying imitation learning algorithms, such as behavioral cloning. However, as soon as several tasks need to be learned, we must decide which tasks should be demonstrated and how often? We study this multi-task problem and explore an interactive framework in which the agent adaptively selects the tasks to be demonstrated. We propose AMF (Active Multi-task Fine-tuning), an algorithm to maximize multi-task policy performance under a limited demonstration budget by collecting demonstrations yielding the largest information gain on the expert policy. We derive performance guarantees for AMF under regularity assumptions and demonstrate its empirical effectiveness to efficiently fine-tune neural policies in complex and high-dimensional environments.

arxiv情報

著者 Marco Bagatella,Jonas Hübotter,Georg Martius,Andreas Krause
発行日 2024-10-07 13:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

GARField: Addressing the visual Sim-to-Real gap in garment manipulation with mesh-attached radiance fields

要約

人間は直感的に衣服やその他の繊維製品を迅速かつ正確に操作しますが、ロボットにとってこれは大きな課題です。
人間のパフォーマンスにとって重要な要素は、操作意図の意図された結果をアプリオリに想像し、衣服のポーズの予測を立てる能力です。
これにより、非常に障害のある状態から計画を立て、より多くの情報を収集しながら計画を調整し、予期せぬ状況に迅速に対応することができます。
一方、ロボットは、そのような直観を確立し、計画と観察の間に緊密なつながりを形成するのに苦労しています。
これは、繊維加工用の高密度にラベル付けされたデータを取得するのに質と量の両方でコストがかかることが部分的に原因であると考えられます。
データ収集の問題は、衣類の加工に対するデータに基づくアプローチにおける長年の課題です。
現在、高品質でラベル付きの衣類操作データの生成は、主に、現実世界の観察から簡素化された状態推定を作成する高度なデータ取得手順を通じて試みられています。
ただし、この研究では、与えられたオブジェクトの状態から現実世界の観測値を生成することを提案します。
これを達成するために、三角形メッシュとして保存されたシミュレートされた状態からデータを生成できる微分可能なレンダリング アーキテクチャである GARField (Garment Attached Radiance Field) を提案します。
コードは https://ddonatien.github.io/garfield-website/ で入手できます。

要約(オリジナル)

While humans intuitively manipulate garments and other textiles items swiftly and accurately, it is a significant challenge for robots. A factor crucial to the human performance is the ability to imagine, a priori, the intended result of the manipulation intents and hence develop predictions on the garment pose. This allows us to plan from highly obstructed states, adapt our plans as we collect more information and react swiftly to unforeseen circumstances. Robots, on the other hand, struggle to establish such intuitions and form tight links between plans and observations. This can be attributed in part to the high cost of obtaining densely labelled data for textile manipulation, both in quality and quantity. The problem of data collection is a long standing issue in data-based approaches to garment manipulation. Currently, the generation of high quality and labelled garment manipulation data is mainly attempted through advanced data capture procedures that create simplified state estimations from real-world observations. In this work, however, we propose to generate real-world observations from given object states. To achieve this, we present GARField (Garment Attached Radiance Field) a differentiable rendering architecture allowing data generation from simulated states stored as triangle meshes. Code will be available on https://ddonatien.github.io/garfield-website/

arxiv情報

著者 Donatien Delehelle,Darwin G. Caldwell,Fei Chen
発行日 2024-10-07 13:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.RO | コメントする

Can LLMs plan paths with extra hints from solvers?

要約

大規模言語モデル (LLM) は、自然言語処理、数学的問題解決、およびプログラム合成に関連するタスクにおいて顕著な能力を示しています。
しかし、長期計画や高次の推論におけるそれらの有効性は限られており、脆弱であることが指摘されています。
この論文では、ソルバーが生成したフィードバックを統合することで、古典的なロボット計画タスクを解決する際の LLM パフォーマンスを向上させるアプローチを検討します。
私たちは、視覚的なフィードバックを含むフィードバックを提供するための 4 つの異なる戦略を検討し、微調整を利用し、10 の標準問題とさらにランダムに生成された 100 の計画問題にわたって 3 つの異なる LLM のパフォーマンスを評価しました。
私たちの結果は、ソルバーが生成したフィードバックによって、中程度に難しい問題を解決する LLM の能力が向上しますが、より難しい問題には依然として手が届かないことを示唆しています。
この研究では、さまざまなヒンティング戦略の効果と、評価された LLM のさまざまな計画傾向の詳細な分析が提供されます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in natural language processing, mathematical problem solving, and tasks related to program synthesis. However, their effectiveness in long-term planning and higher-order reasoning has been noted to be limited and fragile. This paper explores an approach for enhancing LLM performance in solving a classical robotic planning task by integrating solver-generated feedback. We explore four different strategies for providing feedback, including visual feedback, we utilize fine-tuning, and we evaluate the performance of three different LLMs across a 10 standard and 100 more randomly generated planning problems. Our results suggest that the solver-generated feedback improves the LLM’s ability to solve the moderately difficult problems, but the harder problems still remain out of reach. The study provides detailed analysis of the effects of the different hinting strategies and the different planning tendencies of the evaluated LLMs.

arxiv情報

著者 Erik Wu,Sayan Mitra
発行日 2024-10-07 14:00:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | コメントする

HE-Nav: A High-Performance and Efficient Navigation System for Aerial-Ground Robots in Cluttered Environments

要約

既存の AGR ナビゲーション システムは、ボクセル占有予測に 3D セマンティック シーン補完ネットワークを採用し、衝突のない経路計画のためにユークリッド符号付き距離場 (ESDF) マップを構築することにより、軽度に遮蔽されたシナリオ (建物など) で進歩してきました。
ただし、これらのシステムは、知覚ネットワークの低い予測精度とパス プランナーの高い計算オーバーヘッドから生じる制限により、重度のオクルージョンのある乱雑な環境 (密集した森林や高い壁など) では次善のパフォーマンスと効率を示します。
この論文では、乱雑な環境で動作する AGR 向けに調整された初の高性能かつ効率的なナビゲーション システムである HE-Nav を紹介します。
認識モジュールは、鳥瞰図 (BEV) 機能融合によってガイドされ、精巧に設計された SCB-Fusion モジュールと注意メカニズムによって強化された、軽量のセマンティック シーン完了ネットワーク (LBSCNet) を利用します。
これにより、雑然としたエリアでもリアルタイムで効率的な障害物予測が可能になり、完全なローカル マップが生成されます。
この完成したマップに基づいて、当社の新しい AG-Planner は、エネルギー効率の高い運動力学的 A* 検索アルゴリズムを採用し、計画の省エネルギー化を保証します。
その後の軌道最適化プロセスにより、安全でスムーズ、動的に実現可能な、ESDF のない空中と地上のハイブリッド パスが生成されます。
広範な実験により、HE-Nav はシミュレーション シナリオで 98% の計画成功率を維持しながら、現実世界の状況で 7 倍のエネルギー節約を達成したことが実証されました。
コードとビデオはプロジェクト ページ https://jmwang0117.github.io/HE-Nav/ で入手できます。

要約(オリジナル)

Existing AGR navigation systems have advanced in lightly occluded scenarios (e.g., buildings) by employing 3D semantic scene completion networks for voxel occupancy prediction and constructing Euclidean Signed Distance Field (ESDF) maps for collision-free path planning. However, these systems exhibit suboptimal performance and efficiency in cluttered environments with severe occlusions (e.g., dense forests or tall walls), due to limitations arising from perception networks’ low prediction accuracy and path planners’ high computational overhead. In this paper, we present HE-Nav, the first high-performance and efficient navigation system tailored for AGRs operating in cluttered environments. The perception module utilizes a lightweight semantic scene completion network (LBSCNet), guided by a bird’s eye view (BEV) feature fusion and enhanced by an exquisitely designed SCB-Fusion module and attention mechanism. This enables real-time and efficient obstacle prediction in cluttered areas, generating a complete local map. Building upon this completed map, our novel AG-Planner employs the energy-efficient kinodynamic A* search algorithm to guarantee planning is energy-saving. Subsequent trajectory optimization processes yield safe, smooth, dynamically feasible and ESDF-free aerial-ground hybrid paths. Extensive experiments demonstrate that HE-Nav achieved 7x energy savings in real-world situations while maintaining planning success rates of 98% in simulation scenarios. Code and video are available on our project page: https://jmwang0117.github.io/HE-Nav/.

arxiv情報

著者 Junming Wang,Zekai Sun,Xiuxian Guan,Tianxiang Shen,Dong Huang,Zongyuan Zhang,Tianyang Duan,Fangming Liu,Heming Cui
発行日 2024-10-07 14:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Towards Embedding Dynamic Personas in Interactive Robots: Masquerading Animated Social Kinematics (MASK)

要約

この論文では、キャラクターのようなペルソナを使用して視聴者の参加を強化する革新的な対話型ロボット システムの設計と開発について説明します。
この作品は、ペルソナ駆動型の対話エージェントの基礎に基づいて構築されており、ロボットを使用してエージェントのアプリケーションを物理領域に拡張し、より魅力的でインタラクティブなエクスペリエンスを提供します。
マスカレーディング アニメーション ソーシャル キネマティック (MASK) と名付けられたこの提案されたシステムは、顔の表情やジェスチャーなどの非言語的な対話を使用してゲストと対話する擬人化ロボットを活用しています。
有限状態機械構造に基づく動作生成システムは、ロボットの動作を効果的に条件付けして、異なるペルソナを伝えます。
MASK フレームワークは、認識エンジン、動作選択エンジン、および包括的なアクション ライブラリを統合し、動作設計における人間の介入を最小限に抑えながら、リアルタイムの動的な対話を可能にします。
ユーザー主体の研究を通じて、ユーザーが性格ベースと映画キャラクターベースの両方のペルソナ条件で意図したキャラクターを認識できるかどうかを調べました。
最後に、対話型エージェントにおけるペルソナの役割と、魅力的なユーザー エクスペリエンスを作成するために考慮すべき要素について説明します。

要約(オリジナル)

This paper presents the design and development of an innovative interactive robotic system to enhance audience engagement using character-like personas. Built upon the foundations of persona-driven dialog agents, this work extends the agent’s application to the physical realm, employing robots to provide a more captivating and interactive experience. The proposed system, named the Masquerading Animated Social Kinematic (MASK), leverages an anthropomorphic robot which interacts with guests using non-verbal interactions, including facial expressions and gestures. A behavior generation system based upon a finite-state machine structure effectively conditions robotic behavior to convey distinct personas. The MASK framework integrates a perception engine, a behavior selection engine, and a comprehensive action library to enable real-time, dynamic interactions with minimal human intervention in behavior design. Throughout the user subject studies, we examined whether the users could recognize the intended character in both personality- and film-character-based persona conditions. We conclude by discussing the role of personas in interactive agents and the factors to consider for creating an engaging user experience.

arxiv情報

著者 Jeongeun Park,Taemoon Jeong,Hyeonseong Kim,Taehyun Byun,Seungyoon Shin,Keunjun Choi,Jaewoon Kwon,Taeyoon Lee,Matthew Pan,Sungjoon Choi
発行日 2024-10-07 14:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Reinforcement Learning Control for Autonomous Hydraulic Material Handling Machines with Underactuated Tools

要約

重量物運搬機械の正確かつ安全な制御には、油圧で作動するジョイントのモデル化が難しいことと、自由にスイングするエンドエフェクターツールによる衝突のない軌道計画の必要性があるため、多くの課題が生じます。
この研究では、キャビンジョイントとアームを同時に制御する RL ベースのコントローラーを提案します。
データ駆動型モデリング技術と第一原理モデリングを組み合わせたシミュレーションでトレーニングされます。
一方では、ニューラル ネットワーク モデルを使用して、上部台車回転油圧モーターの高度に非線形なダイナミクスをキャプチャし、遅延をより適切に処理するために明示的な圧力予測を組み込んでいます。
一方、第一原理を使用して、アームを速度制御可能としてモデル化し、自由にスイングするエンドエフェクターツールを減衰振り子としてモデル化します。
この結合モデルによりシミュレーション環境が強化され、実機に直接転送できる RL コントローラーのトレーニングが可能になります。
定常状態のデカルト目標を達成するように設計された RL コントローラーは、油圧力学を活用して精度を向上させ、高速を維持し、エンドエフェクター ツールの振動を最小限に抑えることを学習します。
中型のプロトタイプのマテリアル ハンドラーでテストされた当社のコントローラーは、経験の浅いオペレーターよりも正確で、ツールの振動が少なくなります。
経験豊富なプロドライバーと比較しても遜色ないパフォーマンスを発揮します。

要約(オリジナル)

The precise and safe control of heavy material handling machines presents numerous challenges due to the hard-to-model hydraulically actuated joints and the need for collision-free trajectory planning with a free-swinging end-effector tool. In this work, we propose an RL-based controller that commands the cabin joint and the arm simultaneously. It is trained in a simulation combining data-driven modeling techniques with first-principles modeling. On the one hand, we employ a neural network model to capture the highly nonlinear dynamics of the upper carriage turn hydraulic motor, incorporating explicit pressure prediction to handle delays better. On the other hand, we model the arm as velocity-controllable and the free-swinging end-effector tool as a damped pendulum using first principles. This combined model enhances our simulation environment, enabling the training of RL controllers that can be directly transferred to the real machine. Designed to reach steady-state Cartesian targets, the RL controller learns to leverage the hydraulic dynamics to improve accuracy, maintain high speeds, and minimize end-effector tool oscillations. Our controller, tested on a mid-size prototype material handler, is more accurate than an inexperienced operator and causes fewer tool oscillations. It demonstrates competitive performance even compared to an experienced professional driver.

arxiv情報

著者 Filippo A. Spinelli,Pascal Egli,Julian Nubert,Fang Nan,Thilo Bleumer,Patrick Goegler,Stephan Brockes,Ferdinand Hofmann,Marco Hutter
発行日 2024-10-07 14:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Towards a Modern and Lightweight Rendering Engine for Dynamic Robotic Simulations

要約

インタラクティブ ダイナミック シミュレータは、新しいロボット制御アルゴリズムや人間とロボットが関与する複雑なシステムを開発するためのアクセラレータです。
ユーザー トレーニングおよび合成データ生成アプリケーションでは、シミュレーションの忠実度の高い視覚化が不可欠です。
視覚的な忠実度は、シミュレートされたシーンのレンダリングに使用されるコンピューター グラフィックス アルゴリズムの品質に依存します。
さらに、リアルタイム パフォーマンスを実現するには、レンダリング アルゴリズムをグラフィックス プロセッシング ユニット (GPU) に実装する必要があり、グラフィックス アプリケーション プログラミング インターフェイス (API) の使用が必要になります。
このペーパーでは、Vulkan グラフィックス API をサポートするパフォーマンス重視の軽量レンダリング エンジンについて説明します。
このエンジンは、インタラクティブなロボット シミュレーション開発に広く使用されている動的シミュレーション フレームワークである非同期マルチボディ フレームワーク (AMBF) の従来のレンダリング パイプラインを最新化するように設計されています。
この新しいレンダリング エンジンは、物理ベース レンダリング (PBR)、アンチエイリアス、レイ トレース シャドウなどのグラフィック機能を実装し、AMBF の画質を大幅に向上させます。
計算実験の結果、このエンジンは GPU の計算時間を 2 ミリ秒以内に維持しながら、700 万を超える三角形を含むシミュレートされたシーンをレンダリングできることがわかりました。

要約(オリジナル)

Interactive dynamic simulators are an accelerator for developing novel robotic control algorithms and complex systems involving humans and robots. In user training and synthetic data generation applications, a high-fidelity visualization of the simulation is essential. Visual fidelity is dependent on the quality of the computer graphics algorithms used to render the simulated scene. Furthermore, the rendering algorithms must be implemented on the graphics processing unit (GPU) to achieve real-time performance, requiring the use of a graphics application programming interface (API). This paper presents a performance-focused and lightweight rendering engine supporting the Vulkan graphics API. The engine is designed to modernize the legacy rendering pipeline of Asynchronous Multi-Body Framework (AMBF), a dynamic simulation framework used extensively for interactive robotics simulation development. This new rendering engine implements graphical features such as physically based rendering (PBR), anti-aliasing, and ray-traced shadows, significantly improving the image quality of AMBF. Computational experiments show that the engine can render a simulated scene with over seven million triangles while maintaining GPU computation times within two milliseconds.

arxiv情報

著者 Christopher John Allison,Haoying Zhou,Adnan Munawar,Peter Kazanzides,Juan Antonio Barragan
発行日 2024-10-07 14:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.RO, cs.SE | コメントする

LGMCTS: Language-Guided Monte-Carlo Tree Search for Executable Semantic Object Rearrangement

要約

実行可能な意味論的オブジェクトの再配置問題に対する新しいアプローチを紹介します。
この課題では、ロボットは、自然言語の記述によって指示されたパターンに従ってシーン内のオブジェクトを再配置する実行可能な計画を作成しようとします。
StructFormer や StructDiffusion などの既存の手法は、最初にポーズを生成し、次にタスク プランナーを利用してアクション プランを策定するという 2 つのステップで問題に取り組みますが、これとは異なり、私たちの手法はポーズの生成とアクション プランニングに同時に対処します。
この統合は、言語ガイド付きモンテカルロ ツリー検索 (LGMCTS) を使用して実現します。
定量的評価は 2 つのシミュレーション データセットで提供され、実際のロボットを使用した定性テストによって補完されます。

要約(オリジナル)

We introduce a novel approach to the executable semantic object rearrangement problem. In this challenge, a robot seeks to create an actionable plan that rearranges objects within a scene according to a pattern dictated by a natural language description. Unlike existing methods such as StructFormer and StructDiffusion, which tackle the issue in two steps by first generating poses and then leveraging a task planner for action plan formulation, our method concurrently addresses pose generation and action planning. We achieve this integration using a Language-Guided Monte-Carlo Tree Search (LGMCTS). Quantitative evaluations are provided on two simulation datasets, and complemented by qualitative tests with a real robot.

arxiv情報

著者 Haonan Chang,Kai Gao,Kowndinya Boyalakuntla,Alex Lee,Baichuan Huang,Harish Udhaya Kumar,Jinjin Yu,Abdeslam Boularias
発行日 2024-10-07 14:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Real-Time Truly-Coupled Lidar-Inertial Motion Correction and Spatiotemporal Dynamic Object Detection

要約

過去 10 年間にわたり、ライダーは周囲の正確な幾何学的情報を 3D スキャンの形式で提供できるため、ロボットの状態推定と認識の基礎となってきました。
残念ながら、最近の LIDAR のほとんどは環境のスナップショットを取得せず、一定期間 (通常は約 100 ミリ秒) にわたって環境をスイープします。
このようなローリング シャッターのようなメカニズムにより、収集された LIDAR スキャンに動きの歪みが生じ、下流の認識アプリケーションが妨げられます。
この論文では、LIDAR と慣性測定ユニット (IMU) データを密結合することにより、LIDAR データの動きの歪みを補正する新しい方法を紹介します。
この研究の動機は、LIDAR に基づくマップフリーの動的物体検出です。
提案された LIDAR データの歪みを解消する方法は、IMU 測定値の連続事前積分に依存しており、11 個の離散状態変数 (バイアス、初速度、重力方向) のみを使用してセンサーの連続 6-DoF 軌道をパラメータ化できます。
歪みの解消は、非線形最小二乗公式における点から線および点から面の残差の特徴ベースの距離最小化で構成されます。
提案されたパイプラインは、短い時間ウィンドウにわたる歪みのない幾何学的データが与えられると、各 LIDAR ポイントの時空間法線ベクトルを計算します。
法線の時間成分は対応する点の速度の代用となるため、グローバル参照フレームに登録する必要がなく、学習不要の動的なオブジェクト分類が可能になります。
公開データセットを使用して、提案された方法とそのさまざまなコンポーネントの健全性を実証し、それらを最先端の LIDAR 慣性状態推定および動的物体検出アルゴリズムと比較します。

要約(オリジナル)

Over the past decade, lidars have become a cornerstone of robotics state estimation and perception thanks to their ability to provide accurate geometric information about their surroundings in the form of 3D scans. Unfortunately, most of nowadays lidars do not take snapshots of the environment but sweep the environment over a period of time (typically around 100 ms). Such a rolling-shutter-like mechanism introduces motion distortion into the collected lidar scan, thus hindering downstream perception applications. In this paper, we present a novel method for motion distortion correction of lidar data by tightly coupling lidar with Inertial Measurement Unit (IMU) data. The motivation of this work is a map-free dynamic object detection based on lidar. The proposed lidar data undistortion method relies on continuous preintegrated of IMU measurements that allow parameterising the sensors’ continuous 6-DoF trajectory using solely eleven discrete state variables (biases, initial velocity, and gravity direction). The undistortion consists of feature-based distance minimisation of point-to-line and point-to-plane residuals in a non-linear least-square formulation. Given undistorted geometric data over a short temporal window, the proposed pipeline computes the spatiotemporal normal vector of each of the lidar points. The temporal component of the normals is a proxy for the corresponding point’s velocity, therefore allowing for learning-free dynamic object classification without the need for registration in a global reference frame. We demonstrate the soundness of the proposed method and its different components using public datasets and compare them with state-of-the-art lidar-inertial state estimation and dynamic object detection algorithms.

arxiv情報

著者 Cedric Le Gentil,Raphael Falque,Teresa Vidal-Calleja
発行日 2024-10-07 16:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

State Estimation of Marine Vessels Affected by Waves by Unmanned Aerial Vehicles

要約

この論文では、荒海における船舶のロバストな状態推定のための新しいアプローチを提案し、気象条件に関係なく、無人航空機(UAV)と船舶の間の協調着陸や物体操作などの緊密な連携を可能にします。
強い波の動きの影響を受ける船舶(この場合は無人水上飛行体(USV))のダイナミクスの研究により、正確な USV 状態推定と運動に必要な 6 自由度(DOF)を備えた新しい非線形数学的 USV モデルが誕生しました。
予測。
提案された状態推定アプローチは、UAV と USV に搭載された複数のセンサーからのデータを融合して、現実世界のアプリケーションのさまざまな気象条件下での冗長性と堅牢性を可能にします。
提案されたアプローチは、6 DOF で USV の推定状態を提供し、後退する制御ホライズンで両方の車両を厳密に制御できるように将来の状態を予測します。
提案されたアプローチは、現実的な Gazebo シミュレーターで広範囲にテストされ、振動および移動する USV での機敏な着陸など、さまざまなアプリケーション シナリオを表す多くの実世界の実験で実験的に検証され、成功しました。
比較研究では、提案されたアプローチが現在の最先端技術を大幅に上回っていることが示されています。

要約(オリジナル)

A novel approach for robust state estimation of marine vessels in rough water is proposed in this paper to enable tight collaboration between Unmanned Aerial Vehicles (UAVs) and a marine vessel, such as cooperative landing or object manipulation, regardless of weather conditions. Our study of marine vessel (in our case Unmanned Surface Vehicle (USV)) dynamics influenced by strong wave motion has resulted in a novel nonlinear mathematical USV model with 6 degrees of freedom (DOFs), which is required for precise USV state estimation and motion prediction. The proposed state estimation approach fuses data from multiple sensors onboard the UAV and the USV to enable redundancy and robustness under varying weather conditions of real-world applications. The proposed approach provides estimated states of the USV with 6 DOFs and predicts its future states to enable tight control of both vehicles on a receding control horizon. The proposed approach was extensively tested in the realistic Gazebo simulator and successfully experimentally validated in many real-world experiments representing different application scenarios, including agile landing on an oscillating and moving USV. A comparative study indicates that the proposed approach significantly surpassed the current state-of-the-art.

arxiv情報

著者 Filip Novák,Tomáš Báča,Ondřej Procházka,Martin Saska
発行日 2024-10-07 16:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする