Flying Calligrapher: Contact-Aware Motion and Force Planning and Control for Aerial Manipulation

要約

空中操作は、接触検査や欠陥検出など、人間の労働者にとって困難な高地タスクの完了に関心を持っています。
この手紙は、より一般的で動的なタスクに対処します。同時に、表面の正常方向の時変の接触力と接線面での運動軌跡を追跡します。
動的に実行可能な軌跡を生成する接触軌道プランナーを含むパイプラインと、そのような軌跡を追跡するハイブリッドモーションフォースコントローラーを提案します。
脳卒中幅が接触力に正の関連性があるため、エンドエフェクターとして新しいスポンジペンデザインを使用して、空中書道タスクのアプローチを実証します。
さらに、柔軟なユーザー入力のためのタッチスクリーンインターフェイスを開発します。
実験では、私たちの方法が効果的に多様な文字を引き出し、0.59のIOUと2.9 cm(0.7 n)のRMSEを追跡するエンドエフェクターの位置(力)を達成できることを示しています。
ウェブサイト:https://xiaofeng-guo.github.io/flying-calligrapher/

要約(オリジナル)

Aerial manipulation has gained interest in completing high-altitude tasks that are challenging for human workers, such as contact inspection and defect detection, etc. Previous research has focused on maintaining static contact points or forces. This letter addresses a more general and dynamic task: simultaneously tracking time-varying contact force in the surface normal direction and motion trajectories on tangential surfaces. We propose a pipeline that includes a contact-aware trajectory planner to generate dynamically feasible trajectories, and a hybrid motion-force controller to track such trajectories. We demonstrate the approach in an aerial calligraphy task using a novel sponge pen design as the end-effector, whose stroke width is positively related to the contact force. Additionally, we develop a touchscreen interface for flexible user input. Experiments show our method can effectively draw diverse letters, achieving an IoU of 0.59 and an end-effector position (force) tracking RMSE of 2.9 cm (0.7 N). Website: https://xiaofeng-guo.github.io/flying-calligrapher/

arxiv情報

著者 Xiaofeng Guo,Guanqi He,Jiahe Xu,Mohammadreza Mousaei,Junyi Geng,Sebastian Scherer,Guanya Shi
発行日 2025-04-14 20:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Flying Calligrapher: Contact-Aware Motion and Force Planning and Control for Aerial Manipulation はコメントを受け付けていません

CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models

要約

カリキュラム学習は、トレーニング中のタスクの難易度を徐々に増加させることにより、複雑なポリシーの達成を促進する強化学習(RL)のトレーニングメカニズムです。
ただし、特定のタスクに効果的なカリキュラムを設計するには、多くの場合、広範なドメインの知識と人間の介入が必要であり、さまざまなドメインにわたる適用性が制限されます。
私たちの核となるアイデアは、多様な言語データと世界知識をカプセル化する能力に関する広範なトレーニングにより、大規模な言語モデル(LLMS)が、さまざまなロボット環境でタスクを効率的に分解し、スキルを分解するための重要な可能性をもたらすことです。
さらに、RLエージェントの実行可能コードに自然言語を翻訳する際のLLMの実証された成功は、タスクカリキュラムの生成における役割を強化します。
この作業では、カリキュラム設計のためのLLMSの高レベルの計画とプログラミング機能を活用して、複雑なターゲットタスクの効率的な学習を強化するカリキュラムを提案します。
カリキュラムは次のもので構成されています。(ステップ1)自然言語形式でのターゲットタスク学習を支援するサブタスクの生成、(ステップ2)報酬コードと目標分布コードを含む実行可能タスクコードのサブタスクの自然言語の説明、および(ステップ3)トレーズロールアウトとサブタスクの説明に基づくトレーニングされたポリシーの評価。
操作、ナビゲーション、移動から、さまざまなロボットシミュレーション環境でカリキュラムを評価し、カリキュラムが複雑なロボット制御タスクの学習を支援できることを示します。
さらに、現実世界のカリキュラムを通じて学んだヒューマノイド運動ポリシーを検証します。
プロジェクトのウェブサイトはhttps://iconlab.negarmehr.com/curricullm/です

要約(オリジナル)

Curriculum learning is a training mechanism in reinforcement learning (RL) that facilitates the achievement of complex policies by progressively increasing the task difficulty during training. However, designing effective curricula for a specific task often requires extensive domain knowledge and human intervention, which limits its applicability across various domains. Our core idea is that large language models (LLMs), with their extensive training on diverse language data and ability to encapsulate world knowledge, present significant potential for efficiently breaking down tasks and decomposing skills across various robotics environments. Additionally, the demonstrated success of LLMs in translating natural language into executable code for RL agents strengthens their role in generating task curricula. In this work, we propose CurricuLLM, which leverages the high-level planning and programming capabilities of LLMs for curriculum design, thereby enhancing the efficient learning of complex target tasks. CurricuLLM consists of: (Step 1) Generating sequence of subtasks that aid target task learning in natural language form, (Step 2) Translating natural language description of subtasks in executable task code, including the reward code and goal distribution code, and (Step 3) Evaluating trained policies based on trajectory rollout and subtask description. We evaluate CurricuLLM in various robotics simulation environments, ranging from manipulation, navigation, and locomotion, to show that CurricuLLM can aid learning complex robot control tasks. In addition, we validate humanoid locomotion policy learned through CurricuLLM in real-world. Project website is https://iconlab.negarmehr.com/CurricuLLM/

arxiv情報

著者 Kanghyun Ryu,Qiayuan Liao,Zhongyu Li,Payam Delgosha,Koushil Sreenath,Negar Mehr
発行日 2025-04-14 22:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models はコメントを受け付けていません

CleanMAP: Distilling Multimodal LLMs for Confidence-Driven Crowdsourced HD Map Updates

要約

インテリジェント接続車両(I​​CV)と統合された車両ロードクラウドシステムの急速な成長により、正確なリアルタイムHDマップの更新の需要が増加しました。
ただし、モーションブラー、照明の変動、悪天候、車線マークの分解に苦しむクラウドソーシングデータの矛盾のため、マップの信頼性が依然として困難なままです。
このホワイトペーパーでは、高自信HDマップの更新のためにクラウドソーシングデータをフィルタリングおよび改良するために設計されたマルチモーダル大手言語モデル(MLLM)ベースの蒸留フレームワークであるCleanMapを紹介します。
CleanMapは、主​​要な視覚パラメーターを体系的に定量化するMLLM駆動のレーン視認性スコアリングモデルを活用し、車線検出への影響に基づいて信頼スコア(0-10)を割り当てます。
新しい動的な区分的信頼装飾機能は、車線の視認性に基づいてスコアを適応させ、信頼できないデータを効果的にフィルタリングしながら、人間の評価との強い整合性を確保します。
マップの精度をさらに最適化するために、信頼駆動型のローカルマップ融合戦略がランク付けされ、最適な信頼範囲内でトップKの最高スコアのローカルマップを選択し、データの品質と数量のバランスをとることができます。
実世界の自動運転車データセットの実験的評価は、CleanMapの有効性を検証し、上位3つのローカルマップを融合することで0.28mの最低平均マップ更新誤差が達成され、ベースライン(0.37m)を上回り、厳しい精度のしきい値(<= 0.32m)を満たしていることを示しています。 実際の車両データを使用したさらなる検証により、人間の評価者と84.88%の整列が確認され、モデルの堅牢性と信頼性が強化されます。 この作業は、CleanMapをクラウドソーシングHDマップの更新用のスケーラブルで展開可能なソリューションとして確立し、より正確で信頼性の高い自律ナビゲーションを確保します。 コードはhttps://ankit-zefan.github.io/cleanmap/で入手できます

要約(オリジナル)

The rapid growth of intelligent connected vehicles (ICVs) and integrated vehicle-road-cloud systems has increased the demand for accurate, real-time HD map updates. However, ensuring map reliability remains challenging due to inconsistencies in crowdsourced data, which suffer from motion blur, lighting variations, adverse weather, and lane marking degradation. This paper introduces CleanMAP, a Multimodal Large Language Model (MLLM)-based distillation framework designed to filter and refine crowdsourced data for high-confidence HD map updates. CleanMAP leverages an MLLM-driven lane visibility scoring model that systematically quantifies key visual parameters, assigning confidence scores (0-10) based on their impact on lane detection. A novel dynamic piecewise confidence-scoring function adapts scores based on lane visibility, ensuring strong alignment with human evaluations while effectively filtering unreliable data. To further optimize map accuracy, a confidence-driven local map fusion strategy ranks and selects the top-k highest-scoring local maps within an optimal confidence range (best score minus 10%), striking a balance between data quality and quantity. Experimental evaluations on a real-world autonomous vehicle dataset validate CleanMAP’s effectiveness, demonstrating that fusing the top three local maps achieves the lowest mean map update error of 0.28m, outperforming the baseline (0.37m) and meeting stringent accuracy thresholds (<= 0.32m). Further validation with real-vehicle data confirms 84.88% alignment with human evaluators, reinforcing the model's robustness and reliability. This work establishes CleanMAP as a scalable and deployable solution for crowdsourced HD map updates, ensuring more precise and reliable autonomous navigation. The code will be available at https://Ankit-Zefan.github.io/CleanMap/

arxiv情報

著者 Ankit Kumar Shaw,Kun Jiang,Tuopu Wen,Chandan Kumar Sah,Yining Shi,Mengmeng Yang,Diange Yang,Xiaoli Lian
発行日 2025-04-14 22:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO, I.2.10 | CleanMAP: Distilling Multimodal LLMs for Confidence-Driven Crowdsourced HD Map Updates はコメントを受け付けていません

Real-time Seafloor Segmentation and Mapping

要約

Posidonia Oceanica Meadowsは、生存と保全のために岩に大きく依存している海草の種です。
近年、この種の世界的な減少に関する懸念があり、効率的な監視および評価ツールの重要な必要性を強調しています。
ディープラーニングベースのセマンティックセグメンテーションと視覚自動監視システムは、さまざまなアプリケーションで有望であることが示されていますが、水中環境でのパフォーマンスは、複雑な水条件と限られたデータセットのために依然として困難です。
このペーパーでは、機械学習とコンピュータービジョンの技術を組み合わせて、自律型水中車両(AUV)がPosidonia Oceanica Meadowsの境界を自律的に検査できるようにするフレームワークを紹介します。
このフレームワークには、既存のマスクR-CNNモデルとPosidonia Oceanica Meadow境界追跡のための戦略を使用して、画像セグメンテーションモジュールが組み込まれています。
さらに、岩に特化した新しいクラスが導入され、包括的な監視アプローチに貢献し、牧草地とその周辺の環境との複雑な相互作用をより深く理解することを目指しています。
画像セグメンテーションモデルは、実際の水中画像を使用して検証されますが、全体的な検査フレームワークは現実的なシミュレーション環境で評価され、実際の水中画像で実際の監視シナリオを複製します。
結果は、提案されたフレームワークにより、AUVが水中検査と岩石のセグメンテーションの主なタスクを自律的に達成できることを示しています。
その結果、この作業は、海洋環境の保全と保護の重要な可能性を秘めており、Posidonia Oceanica Meadowsの状況に関する貴重な洞察を提供し、標的を絞った保存努力をサポートしています。

要約(オリジナル)

Posidonia oceanica meadows are a species of seagrass highly dependent on rocks for their survival and conservation. In recent years, there has been a concerning global decline in this species, emphasizing the critical need for efficient monitoring and assessment tools. While deep learning-based semantic segmentation and visual automated monitoring systems have shown promise in a variety of applications, their performance in underwater environments remains challenging due to complex water conditions and limited datasets. This paper introduces a framework that combines machine learning and computer vision techniques to enable an autonomous underwater vehicle (AUV) to inspect the boundaries of Posidonia oceanica meadows autonomously. The framework incorporates an image segmentation module using an existing Mask R-CNN model and a strategy for Posidonia oceanica meadow boundary tracking. Furthermore, a new class dedicated to rocks is introduced to enhance the existing model, aiming to contribute to a comprehensive monitoring approach and provide a deeper understanding of the intricate interactions between the meadow and its surrounding environment. The image segmentation model is validated using real underwater images, while the overall inspection framework is evaluated in a realistic simulation environment, replicating actual monitoring scenarios with real underwater images. The results demonstrate that the proposed framework enables the AUV to autonomously accomplish the main tasks of underwater inspection and segmentation of rocks. Consequently, this work holds significant potential for the conservation and protection of marine environments, providing valuable insights into the status of Posidonia oceanica meadows and supporting targeted preservation efforts

arxiv情報

著者 Michele Grimaldi,Nouf Alkaabi,Francesco Ruscio,Sebastian Realpe Rua,Rafael Garcia,Nuno Gracias
発行日 2025-04-14 22:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Real-time Seafloor Segmentation and Mapping はコメントを受け付けていません

Communication-aware Hierarchical Map Compression of Time-Varying Environments for Mobile Robots

要約

この論文では、動的確率的占有グリッドの時間シーケンス圧縮のための体系的なフレームワークを開発します。
私たちのアプローチは、信号圧縮理論からのアイデアを活用して、圧縮マップ(歪み)の品質とその記述サイズのバランスをとる多解像度の階層エンコーダーを検索する最適化問題を策定します。
結果として得られる最適化の問題により、利用可能な通信またはメモリリソースを満たし、占有マップのダイナミクスの知識を必要としないマルチ解像度マップ圧縮を取得することができます。
問題を解決するためのアルゴリズムを開発し、スタティック(つまり、非時間変動)と動的(時間変化)占有マップの両方でシミュレーションで提案されたフレームワークの有用性を実証します。

要約(オリジナル)

In this paper, we develop a systematic framework for the time-sequential compression of dynamic probabilistic occupancy grids. Our approach leverages ideas from signal compression theory to formulate an optimization problem that searches for a multi-resolution hierarchical encoder that balances the quality of the compressed map (distortion) with its description size, the latter of which relates to the bandwidth required to reliably transmit the map to other agents or to store map estimates in on-board memory. The resulting optimization problem allows for multi-resolution map compressions to be obtained that satisfy available communication or memory resources, and does not require knowledge of the occupancy map dynamics. We develop an algorithm to solve our problem, and demonstrate the utility of the proposed framework in simulation on both static (i.e., non-time varying) and dynamic (time-varying) occupancy maps.

arxiv情報

著者 Daniel T. Larsson,Dipankar Maity
発行日 2025-04-14 22:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Communication-aware Hierarchical Map Compression of Time-Varying Environments for Mobile Robots はコメントを受け付けていません

ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models

要約

ビジョン言語モデル(VLM)は、自律運転の可能性を示していますが、多くの場合、安全に重要な透明な推論能力がありません。
微調整中の推論を明示的にモデリングすることで、運転決定タスクのVLMパフォーマンスが向上するかどうかを調査します。
GPT-4Oを使用して、カテゴリ固有のプロンプト戦略を備えたドリベルベンチマークからシナリオを駆動するための構造化された推論チェーンを生成します。
推論に基づいた微調整、回答のみの微調整、および複数の小さなVLMファミリー(Llama 3.2、Llava 1.5、およびQwen 2.5VL)にわたってベースライン命令チューニングモデルを比較します。
我々の結果は、推論に基づいた微調整が一貫して代替案よりも優れていることを示しており、llama3.2-11b-reasonが最高のパフォーマンスを達成しています。
推論で微調整されたモデルは、精度とテキスト生成の品質の大幅な改善を示し、明示的な推論が意思決定のための内部表現を強化することを示唆しています。
これらの調査結果は、安全性が批判的なドメインにおける透明な決定プロセスの重要性を強調し、より解釈可能な自律駆動システムを開発するための有望な方向性を提供します。

要約(オリジナル)

Vision-language models (VLMs) show promise for autonomous driving but often lack transparent reasoning capabilities that are critical for safety. We investigate whether explicitly modeling reasoning during fine-tuning enhances VLM performance on driving decision tasks. Using GPT-4o, we generate structured reasoning chains for driving scenarios from the DriveLM benchmark with category-specific prompting strategies. We compare reasoning-based fine-tuning, answer-only fine-tuning, and baseline instruction-tuned models across multiple small VLM families (Llama 3.2, Llava 1.5, and Qwen 2.5VL). Our results demonstrate that reasoning-based fine-tuning consistently outperforms alternatives, with Llama3.2-11B-reason achieving the highest performance. Models fine-tuned with reasoning show substantial improvements in accuracy and text generation quality, suggesting explicit reasoning enhances internal representations for driving decisions. These findings highlight the importance of transparent decision processes in safety-critical domains and offer a promising direction for developing more interpretable autonomous driving systems.

arxiv情報

著者 Amirhosein Chahe,Lifeng Zhou
発行日 2025-04-14 23:16:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models はコメントを受け付けていません

SeeTree — A modular, open-source system for tree detection and orchard localization

要約

正確なローカリゼーションは、精密な果樹園管理の重要な機能要件です。
ただし、栽培者が利用できる既製の商業ソリューションはほとんどありません。
このホワイトペーパーでは、あらゆる車両に展開できるツリートランク検出と果樹園のローカリゼーションのためのモジュール式オープンソース組み込みシステムであるSeetreeを紹介します。
粒子フィルターを使用した視力ベースの総列のローカリゼーションに関する以前の作業に基づいて、Seetreeにはいくつかの新しい機能が含まれています。
まず、row外の岬ターニングを含む完全な果樹園のローカリゼーションの能力を提供します。
第二に、モーションモデルに視覚、GNSS、またはホイール匂いのいずれかを統合する柔軟性が含まれています。
商業果樹園でのフィールド実験中、システムは、最初の粒子の位置で大きな不確実性から始まる場合でも、800回の試行を99%の時間の正しい場所に収束しました。
列が並んでいると、システムはターンの99%を正しく追跡しました(43の一意の行の変更を表す860回の試行)。
採用と将来の研究開発をサポートするために、データセット、設計ファイル、ソースコードをコミュニティが自由に利用できるようにします。

要約(オリジナル)

Accurate localization is an important functional requirement for precision orchard management. However, there are few off-the-shelf commercial solutions available to growers. In this paper, we present SeeTree, a modular, open source embedded system for tree trunk detection and orchard localization that is deployable on any vehicle. Building on our prior work on vision-based in-row localization using particle filters, SeeTree includes several new capabilities. First, it provides capacity for full orchard localization including out-of-row headland turning. Second, it includes the flexibility to integrate either visual, GNSS, or wheel odometry in the motion model. During field experiments in a commercial orchard, the system converged to the correct location 99% of the time over 800 trials, even when starting with large uncertainty in the initial particle locations. When turning out of row, the system correctly tracked 99% of the turns (860 trials representing 43 unique row changes). To help support adoption and future research and development, we make our dataset, design files, and source code freely available to the community.

arxiv情報

著者 Jostan Brown,Cindy Grimm,Joseph R. Davidson
発行日 2025-04-14 23:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SeeTree — A modular, open-source system for tree detection and orchard localization はコメントを受け付けていません

Superfast Configuration-Space Convex Set Computation on GPUs for Online Motion Planning

要約

この作業では、GPUを活用して、ロボット構成スペースに確率的に衝突のない凸セットを構築します。
これにより、このような表現を変化する環境に活用する最新のモーション計画アルゴリズムの使用が拡張されます。
これらのプランナーは、困難な非コンベックス衝突回避制約の負担なしに、迅速かつ確実に高品質の軌跡を最適化します。
衝突のない区分的線形経路を、大規模な並列症を使用して確率的に衝突しない凸セット(SC)に膨張するアルゴリズムを提示します。
次に、このアルゴリズムをモーションプランニングパイプラインに統合します。これにより、動的なロードマップを活用して、1つまたは複数の衝突のないパスを迅速に見つけて膨張させます。
次に、確率的に衝突のないセットを介して軌跡を最適化し、同時に候補の軌跡を使用してセットから衝突を検出して削除します。
シミュレーションベンチマークでのアプローチの有効性と、ループに知覚を伴うKuka IIWA 7ロボットマニピュレーターを実証します。
ベンチマークでは、アプローチは17.1倍速く実行され、非線形軌道最適化ベースラインで信頼性が27.9%増加し、高品質のモーションプランを作成します。

要約(オリジナル)

In this work, we leverage GPUs to construct probabilistically collision-free convex sets in robot configuration space on the fly. This extends the use of modern motion planning algorithms that leverage such representations to changing environments. These planners rapidly and reliably optimize high-quality trajectories, without the burden of challenging nonconvex collision-avoidance constraints. We present an algorithm that inflates collision-free piecewise linear paths into sequences of convex sets (SCS) that are probabilistically collision-free using massive parallelism. We then integrate this algorithm into a motion planning pipeline, which leverages dynamic roadmaps to rapidly find one or multiple collision-free paths, and inflates them. We then optimize the trajectory through the probabilistically collision-free sets, simultaneously using the candidate trajectory to detect and remove collisions from the sets. We demonstrate the efficacy of our approach on a simulation benchmark and a KUKA iiwa 7 robot manipulator with perception in the loop. On our benchmark, our approach runs 17.1 times faster and yields a 27.9% increase in reliability over the nonlinear trajectory optimization baseline, while still producing high-quality motion plans.

arxiv情報

著者 Peter Werner,Richard Cheng,Tom Stewart,Russ Tedrake,Daniela Rus
発行日 2025-04-15 00:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.RO | Superfast Configuration-Space Convex Set Computation on GPUs for Online Motion Planning はコメントを受け付けていません

ATLASv2: LLM-Guided Adaptive Landmark Acquisition and Navigation on the Edge

要約

エッジデバイスに展開された自律システムは、リソースの制約、リアルタイム処理の需要、動的環境への適応など、大きな課題に直面しています。
この作業では、微調整されたTinyLLM、リアルタイムオブジェクト検出、および効率的なパス計画を統合して、エッジデバイスであるJetson Nanoで階層的、マルチタスクナビゲーション、操作を可能にするための効率的なパス計画であるATLASV2を紹介します。
ATLASV2は、将来のタスク実行に使用される内部知識ベースに保存されている環境内のオブジェクトを検出およびローカライズすることにより、ナビゲーション可能なランドマークを動的に拡張します。
私たちは、多様なオブジェクトとランドマークで構築された手作りの家とオフィスの設定を含む、実際の環境でATLASV2を評価します。
結果は、ATLASV2が自然言語の指示を効果的に解釈し、それらを低レベルのアクションに分解し、高い成功率でタスクを実行することを示しています。
完全にオンボードフレームワークで生成AIを活用することにより、ATLASV2は最小限のプロンプトレイテンシと消費電力で最適化されたリソース利用を実現し、シミュレートされた環境と現実世界のアプリケーションの間のギャップを埋めます。

要約(オリジナル)

Autonomous systems deployed on edge devices face significant challenges, including resource constraints, real-time processing demands, and adapting to dynamic environments. This work introduces ATLASv2, a novel system that integrates a fine-tuned TinyLLM, real-time object detection, and efficient path planning to enable hierarchical, multi-task navigation and manipulation all on the edge device, Jetson Nano. ATLASv2 dynamically expands its navigable landmarks by detecting and localizing objects in the environment which are saved to its internal knowledge base to be used for future task execution. We evaluate ATLASv2 in real-world environments, including a handcrafted home and office setting constructed with diverse objects and landmarks. Results show that ATLASv2 effectively interprets natural language instructions, decomposes them into low-level actions, and executes tasks with high success rates. By leveraging generative AI in a fully on-board framework, ATLASv2 achieves optimized resource utilization with minimal prompting latency and power consumption, bridging the gap between simulated environments and real-world applications.

arxiv情報

著者 Mikolaj Walczak,Uttej Kallakuri,Tinoosh Mohsenin
発行日 2025-04-15 00:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | ATLASv2: LLM-Guided Adaptive Landmark Acquisition and Navigation on the Edge はコメントを受け付けていません

E2E Parking Dataset: An Open Benchmark for End-to-End Autonomous Parking

要約

エンドツーエンドの学習は、自律的な駐車場で大きな可能性を示していますが、公開されているデータセットの欠如は再現性とベンチマークを制限します。
以前の作業では、視覚ベースの駐車モデルとデータ生成、トレーニング、クローズループテストのパイプラインを導入しましたが、データセット自体はリリースされませんでした。
このギャップを埋めるために、エンドツーエンドの自律駐車場用の高品質のデータセットを作成してオープンソースします。
元のモデルを使用して、平均位置と方向エラーが低い(0.24メートルと0.34度)、85.16%の全体的な成功率を達成します。

要約(オリジナル)

End-to-end learning has shown great potential in autonomous parking, yet the lack of publicly available datasets limits reproducibility and benchmarking. While prior work introduced a visual-based parking model and a pipeline for data generation, training, and close-loop test, the dataset itself was not released. To bridge this gap, we create and open-source a high-quality dataset for end-to-end autonomous parking. Using the original model, we achieve an overall success rate of 85.16% with lower average position and orientation errors (0.24 meters and 0.34 degrees).

arxiv情報

著者 Kejia Gao,Liguo Zhou,Mingjun Liu,Alois Knoll
発行日 2025-04-15 02:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | E2E Parking Dataset: An Open Benchmark for End-to-End Autonomous Parking はコメントを受け付けていません