Scalable Task Planning via Large Language Models and Structured World Representations

要約

計画方法は、大規模な環境でタスクレベルの問題を解決する際に計算上の扱いやすさと闘っています。
この作業では、LLMSでエンコードされた常識的な知識を活用して、これらの複雑なシナリオに対処する計画技術を強化することを探ります。
LLMSを効率的に使用して、計画問題の状態空間から無関係なコンポーネントを剪定し、その複雑さを大幅に簡素化することにより、これを達成します。
7-dofマニピュレーター(ビデオhttps://youtu.be/6ro2uotoqs4)を使用した実世界の検証とともに、家庭用シミュレーション環境内での広範な実験を通じてこのシステムの有効性を実証します。

要約(オリジナル)

Planning methods struggle with computational intractability in solving task-level problems in large-scale environments. This work explores leveraging the commonsense knowledge encoded in LLMs to empower planning techniques to deal with these complex scenarios. We achieve this by efficiently using LLMs to prune irrelevant components from the planning problem’s state space, substantially simplifying its complexity. We demonstrate the efficacy of this system through extensive experiments within a household simulation environment, alongside real-world validation using a 7-DoF manipulator (video https://youtu.be/6ro2UOtOQS4).

arxiv情報

著者 Rodrigo Pérez-Dattari,Zhaoting Li,Robert Babuška,Jens Kober,Cosimo Della Santina
発行日 2025-02-12 20:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Scalable Task Planning via Large Language Models and Structured World Representations はコメントを受け付けていません

Acoustic Wave Manipulation Through Sparse Robotic Actuation

要約

ロボット工学、制御、および機械学習の最近の進歩により、オブジェクト操作の困難な分野での進歩が促進されました。
これらの進歩には、とりわけ、ロボットセンサーによって部分的に観察されるダイナミクスを表すための深いニューラルネットワークの使用、およびスパース制御信号を使用した効果的な制御が含まれます。
この作業では、より一般的な問題を探ります。音波の操作は、空間的にまばらなアクチュエーターを介して波に影響を与えることができるロボットによって部分的に観察されます。
この問題は、新しい人工材料、超音波切削工具、エネルギー収穫、およびその他の用途の設計の大きな可能性を秘めています。
目的のタスクに応じて、指定された領域で散乱する音響エネルギーの集中するか、それを抑制することに適用できるロボット学習のための効率的なデータ駆動型の方法を開発します。
提案された方法は、部分的な微分方程式によって支配された動的システムの操作のための最先端の学習ベースの方法と比較して、ソリューションの品質と計算の複雑さの観点から優れています。
さらに、提案された方法は、実証されたタスクに関する音響研究における古典的な半分析方法と競争します。
プロジェクトコードを公開し、ビデオデモンストレーションを特集したWebページhttps://gladisor.github.io/waves/を紹介しました。

要約(オリジナル)

Recent advancements in robotics, control, and machine learning have facilitated progress in the challenging area of object manipulation. These advancements include, among others, the use of deep neural networks to represent dynamics that are partially observed by robot sensors, as well as effective control using sparse control signals. In this work, we explore a more general problem: the manipulation of acoustic waves, which are partially observed by a robot capable of influencing the waves through spatially sparse actuators. This problem holds great potential for the design of new artificial materials, ultrasonic cutting tools, energy harvesting, and other applications. We develop an efficient data-driven method for robot learning that is applicable to either focusing scattered acoustic energy in a designated region or suppressing it, depending on the desired task. The proposed method is better in terms of a solution quality and computational complexity as compared to a state-of-the-art learning based method for manipulation of dynamical systems governed by partial differential equations. Furthermore our proposed method is competitive with a classical semi-analytical method in acoustics research on the demonstrated tasks. We have made the project code publicly available, along with a web page featuring video demonstrations: https://gladisor.github.io/waves/.

arxiv情報

著者 Tristan Shah,Noam Smilovich,Samer Gerges,Feruza Amirkulova,Stas Tiomkin
発行日 2025-02-12 20:54:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Acoustic Wave Manipulation Through Sparse Robotic Actuation はコメントを受け付けていません

ClipRover: Zero-shot Vision-Language Exploration and Target Discovery by Mobile Robots

要約

Vision-Language Navigation(VLN)は有望なパラダイムとして浮上し、モバイルロボットがゼロショット推論を実行し、特定の事前プログラミングなしでタスクを実行できるようになりました。
ただし、現在のシステムは、しばしばマップ探査とパス計画を分離し、環境情報が限られているために非効率的なアルゴリズムに依存して探査が依存しています。
このホワイトペーパーでは、Clipという名前の視覚言語モデルの機能を活用するために、「Cliprover」という名前の新しいナビゲーションパイプラインを「Cliprover」と同時に探索し、ターゲット発見を紹介します。
私たちのアプローチには単眼視のみが必要であり、ターゲットに関する以前のマップや知識なしで動作します。
包括的な評価のために、汎用VLNタスク用のカスタマイズされたプラットフォームである「Rover Master」という名前のUGV(無人地上車両)システムの機能的プロトタイプを設計します。
Rover MasterにCliprover Pipelineを統合して展開して、さまざまな現実世界のシナリオにわたってスループット、障害物回避能力、および軌跡のパフォーマンスを評価します。
実験結果は、Cliproverが従来のマップトラバーサルアルゴリズムを常に上回り、以前のマップとターゲットの知識に依存するパス計画方法に匹敵するパフォーマンスを達成することを示しています。
特に、Cliproverは、既存のVLNパイプラインの重要な制限に対処する、事前にキャプチャされた候補の画像や事前に構築されたノードグラフを必要とせずに、リアルタイムのアクティブナビゲーションを提供します。

要約(オリジナル)

Vision-language navigation (VLN) has emerged as a promising paradigm, enabling mobile robots to perform zero-shot inference and execute tasks without specific pre-programming. However, current systems often separate map exploration and path planning, with exploration relying on inefficient algorithms due to limited (partially observed) environmental information. In this paper, we present a novel navigation pipeline named ”ClipRover” for simultaneous exploration and target discovery in unknown environments, leveraging the capabilities of a vision-language model named CLIP. Our approach requires only monocular vision and operates without any prior map or knowledge about the target. For comprehensive evaluations, we design the functional prototype of a UGV (unmanned ground vehicle) system named ”Rover Master”, a customized platform for general-purpose VLN tasks. We integrate and deploy the ClipRover pipeline on Rover Master to evaluate its throughput, obstacle avoidance capability, and trajectory performance across various real-world scenarios. Experimental results demonstrate that ClipRover consistently outperforms traditional map traversal algorithms and achieves performance comparable to path-planning methods that depend on prior map and target knowledge. Notably, ClipRover offers real-time active navigation without requiring pre-captured candidate images or pre-built node graphs, addressing key limitations of existing VLN pipelines.

arxiv情報

著者 Yuxuan Zhang,Adnan Abdullah,Sanjeev J. Koppal,Md Jahidul Islam
発行日 2025-02-12 21:07:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ClipRover: Zero-shot Vision-Language Exploration and Target Discovery by Mobile Robots はコメントを受け付けていません

Large Language Models for Multi-Robot Systems: A Survey

要約

大規模な言語モデル(LLMS)の迅速な進歩により、マルチロボットシステム(MRS)に新しい可能性が開かれ、コミュニケーション、タスク計画、および人間とロボットの相互作用が強化されました。
従来のシングルロボットおよびマルチエージェントシステムとは異なり、MRSは、調整、スケーラビリティ、実際の適応性など、独自の課題を提起します。
この調査では、MRSへのLLM統合の最初の包括的な調査を提供します。
高レベルのタスク割り当て、ミッドレベルのモーション計画、低レベルのアクション生成、および人間の介入におけるアプリケーションを体系的に分類します。
家庭用ロボット工学、建設、フォーメーション制御、ターゲット追跡、ロボットゲームなど、多様なドメインの主要なアプリケーションを強調し、MRSのLLMSの汎用性と変革の可能性を紹介します。
さらに、数学的な推論の制限、幻覚、潜伏期の問題、堅牢なベンチマークシステムの必要性など、MRSのLLMの適応を制限する課題を調べます。
最後に、将来の研究の機会を概説し、微調整、推論技術、およびタスク固有のモデルの進歩を強調します。
この調査の目的は、LLMSが搭載したMRSのインテリジェンスと現実世界の展開において研究者を導くことを目的としています。
この分野での研究の急速に進化する性質に基づいて、オープンソースのGitHubリポジトリの論文を更新し続けています。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has opened new possibilities in Multi-Robot Systems (MRS), enabling enhanced communication, task planning, and human-robot interaction. Unlike traditional single-robot and multi-agent systems, MRS poses unique challenges, including coordination, scalability, and real-world adaptability. This survey provides the first comprehensive exploration of LLM integration into MRS. It systematically categorizes their applications across high-level task allocation, mid-level motion planning, low-level action generation, and human intervention. We highlight key applications in diverse domains, such as household robotics, construction, formation control, target tracking, and robot games, showcasing the versatility and transformative potential of LLMs in MRS. Furthermore, we examine the challenges that limit adapting LLMs in MRS, including mathematical reasoning limitations, hallucination, latency issues, and the need for robust benchmarking systems. Finally, we outline opportunities for future research, emphasizing advancements in fine-tuning, reasoning techniques, and task-specific models. This survey aims to guide researchers in the intelligence and real-world deployment of MRS powered by LLMs. Based on the fast-evolving nature of research in the field, we keep updating the papers in the open-source Github repository.

arxiv情報

著者 Peihan Li,Zijian An,Shams Abrar,Lifeng Zhou
発行日 2025-02-12 23:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Large Language Models for Multi-Robot Systems: A Survey はコメントを受け付けていません

MuJoCo Playground

要約

MJXで構築されたロボット学習のための完全にオープンソースのフレームワークであるMujoco Playgroundを紹介します。これは、シミュレーション、トレーニング、およびSIMからリアルへの転送をロボットに合理化するという明確な目標です。
シンプルな「PIPインストールプレイグラウンド」を使用すると、研究者は単一のGPUで数分でポリシーを訓練できます。
Playgroundは、4倍、ヒューマノイド、器用な手、ロボットアームなど、さまざまなロボットプラットフォームをサポートし、状態入力とピクセル入力の両方からゼロショットシムからリアルへの転送を可能にします。
これは、物理エンジン、バッチレンダラー、トレーニング環境を含む統合スタックを通じて実現されます。
ビデオの結果に加えて、フレームワーク全体がplayground.mujoco.orgで無料で入手できます。

要約(オリジナル)

We introduce MuJoCo Playground, a fully open-source framework for robot learning built with MJX, with the express goal of streamlining simulation, training, and sim-to-real transfer onto robots. With a simple ‘pip install playground’, researchers can train policies in minutes on a single GPU. Playground supports diverse robotic platforms, including quadrupeds, humanoids, dexterous hands, and robotic arms, enabling zero-shot sim-to-real transfer from both state and pixel inputs. This is achieved through an integrated stack comprising a physics engine, batch renderer, and training environments. Along with video results, the entire framework is freely available at playground.mujoco.org

arxiv情報

著者 Kevin Zakka,Baruch Tabanpour,Qiayuan Liao,Mustafa Haiderbhai,Samuel Holt,Jing Yuan Luo,Arthur Allshire,Erik Frey,Koushil Sreenath,Lueder A. Kahrs,Carmelo Sferrazza,Yuval Tassa,Pieter Abbeel
発行日 2025-02-12 23:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MuJoCo Playground はコメントを受け付けていません

Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent

要約

ロボットシステムの進歩は多数の産業に革命をもたらしましたが、彼らの運用はしばしば専門的な技術知識を要求し、非専門家のアクセシビリティを制限しています。
このホワイトペーパーでは、Rosa(ロボットオペレーティングシステムエージェント)を紹介します。これは、ロボットオペレーティングシステム(ROS)と自然言語インターフェイスの間のギャップを埋めるAI駆動エージェントです。
最先端の言語モデルを活用し、オープンソースのフレームワークを統合することにより、Rosaはオペレーターが自然言語を使用してロボットと対話し、コマンドをアクションに変換し、明確に定義されたツールを介してROSとのインターフェースを可能にします。
Rosaの設計はモジュール式で拡張可能であり、ROS1とROS2の両方とのシームレスな統合と、パラメーターの検証や制約施行などの安全メカニズムを提供して、安全で信頼できる操作を確保します。
RosaはもともとROS向けに設計されていますが、他のロボティックスミドルウェアと連携して、ミッション全体の互換性を最大化するように拡張できます。
Rosaは、複雑なロボットシステムへのアクセスを民主化することにより、人間とロボットの相互作用を強化し、すべての専門知識レベルのユーザーが音声統合や視覚的認識などのマルチモーダル機能で力を与えます。
倫理的な考慮事項は、Asimovの3つのロボット法のような基礎原則に導かれ、AI統合が安全性、透明性、プライバシー、および説明責任を促進することを保証します。
Rosaは、ロボットテクノロジーをよりユーザーフレンドリーでアクセスしやすくすることで、運用効率を向上させるだけでなく、ロボット工学および潜在的に将来のミッションオペレーションでの責任あるAI使用の新しい基準を設定します。
このペーパーでは、ローザのアーキテクチャを紹介し、JPLの火星ヤード、実験室での初期モックアップ操作と、3つの異なるロボットを使用したシミュレーションを紹介します。
コアローザライブラリは、オープンソースとして利用できます。

要約(オリジナル)

The advancement of robotic systems has revolutionized numerous industries, yet their operation often demands specialized technical knowledge, limiting accessibility for non-expert users. This paper introduces ROSA (Robot Operating System Agent), an AI-powered agent that bridges the gap between the Robot Operating System (ROS) and natural language interfaces. By leveraging state-of-the-art language models and integrating open-source frameworks, ROSA enables operators to interact with robots using natural language, translating commands into actions and interfacing with ROS through well-defined tools. ROSA’s design is modular and extensible, offering seamless integration with both ROS1 and ROS2, along with safety mechanisms like parameter validation and constraint enforcement to ensure secure, reliable operations. While ROSA is originally designed for ROS, it can be extended to work with other robotics middle-wares to maximize compatibility across missions. ROSA enhances human-robot interaction by democratizing access to complex robotic systems, empowering users of all expertise levels with multi-modal capabilities such as speech integration and visual perception. Ethical considerations are thoroughly addressed, guided by foundational principles like Asimov’s Three Laws of Robotics, ensuring that AI integration promotes safety, transparency, privacy, and accountability. By making robotic technology more user-friendly and accessible, ROSA not only improves operational efficiency but also sets a new standard for responsible AI use in robotics and potentially future mission operations. This paper introduces ROSA’s architecture and showcases initial mock-up operations in JPL’s Mars Yard, a laboratory, and a simulation using three different robots. The core ROSA library is available as open-source.

arxiv情報

著者 Rob Royce,Marcel Kaufmann,Jonathan Becktor,Sangwoo Moon,Kalind Carpenter,Kai Pak,Amanda Towler,Rohan Thakker,Shehryar Khattak
発行日 2025-02-13 00:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent はコメントを受け付けていません

3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning

要約

ビジョン言語モデル(VLM)は、シーンの理解と知覚タスクで顕著な成功を収めており、ロボットが動的環境でアクションを適応的に計画および実行できるようにします。
ただし、ほとんどのマルチモーダルな大手言語モデルには、堅牢な3Dシーンのローカリゼーション機能がなく、きめ細かいロボット操作における有効性が制限されています。
さらに、認識の精度の低い、非効率性、貧弱な移動性、信頼性などの課題は、精度のタスクでの使用を妨げます。
これらの制限に対処するために、2D画像をポイントクラウドにマッピングして2Dプロンプト合成モジュールを統合し、VLM出力を監督するための小さな言語モデル(SLM)を組み込む新しいフレームワークを提案します。
2Dプロンプト合成モジュールは、2D画像とテキストでトレーニングされたVLMSを有効にし、手動介入なしに正確な3D空間情報を自律的に抽出し、3Dシーンの理解を大幅に向上させます。
一方、SLMはVLM出力を監督し、幻覚を軽減し、信頼できる実行可能なロボット制御コード生成を確保します。
私たちのフレームワークは、新しい環境での再訓練の必要性を排除し、それによりコスト効率と運用の堅牢性を改善します。
提案されたフレームワークが96.0 \%タスクの成功率(TSR)を達成し、他の方法を上回る実験結果。
アブレーション研究は、2Dプロンプト合成モジュールと出力監督モジュールの両方の重要な役割を実証しました(削除すると、67 \%TSRドロップが発生しました)。
これらの調査結果は、3D認識、タスク計画、およびロボットタスクの実行を改善する上でのフレームワークの有効性を検証します。

要約(オリジナル)

Vision-language models (VLMs) have achieved remarkable success in scene understanding and perception tasks, enabling robots to plan and execute actions adaptively in dynamic environments. However, most multimodal large language models lack robust 3D scene localization capabilities, limiting their effectiveness in fine-grained robotic operations. Additionally, challenges such as low recognition accuracy, inefficiency, poor transferability, and reliability hinder their use in precision tasks. To address these limitations, we propose a novel framework that integrates a 2D prompt synthesis module by mapping 2D images to point clouds, and incorporates a small language model (SLM) for supervising VLM outputs. The 2D prompt synthesis module enables VLMs, trained on 2D images and text, to autonomously extract precise 3D spatial information without manual intervention, significantly enhancing 3D scene understanding. Meanwhile, the SLM supervises VLM outputs, mitigating hallucinations and ensuring reliable, executable robotic control code generation. Our framework eliminates the need for retraining in new environments, thereby improving cost efficiency and operational robustness. Experimental results that the proposed framework achieved a 96.0\% Task Success Rate (TSR), outperforming other methods. Ablation studies demonstrated the critical role of both the 2D prompt synthesis module and the output supervision module (which, when removed, caused a 67\% TSR drop). These findings validate the framework’s effectiveness in improving 3D recognition, task planning, and robotic task execution.

arxiv情報

著者 Guoqin Tang,Qingxuan Jia,Zeyuan Huang,Gang Chen,Ning Ji,Zhipeng Yao
発行日 2025-02-13 02:40:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | 3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning はコメントを受け付けていません

FH-DRL: Exponential-Hyperbolic Frontier Heuristics with DRL for accelerated Exploration in Unknown Environments

要約

大規模または乱雑な環境での自律的なロボット探査は、インテリジェントな車両アプリケーションの中心的な課題のままです。
このペーパーでは、FH-DRLを紹介します。FH-DRLは、フロンティア検出のカスタマイズ可能なヒューリスティック関数を、連続した高速ローカルナビゲーションのツイン遅延DDPG(TD3)エージェントと統合する新しいフレームワークを紹介します。
提案されているヒューリスティックは、指数関数的な溶媒距離スコアに依存しており、これは長距離探査の利益との即時の近接性と、環境の開放性と障害物の密度をリアルタイムで説明します。
これらの適応メトリックを使用してフロンティアをランキングすることにより、FH-DRLは非常に有益でありながら扱いやすいウェイポイントをターゲットにし、冗長パスと総探索時間を最小限に抑えます。
複数のシミュレートされた現実世界のシナリオにわたってFH-DRLを徹底的に評価し、フロンティアのみまたは純粋にDRLベースの探索にわたる移動距離と完了時間の明確な改善を示しています。
構造化された廊下のレイアウトと迷路のようなトポロジーでは、私たちのアーキテクチャは、最寄りのフロンティア、コグネットフロンティア探査、目標駆動型の自律探査などの標準的な方法よりも一貫して優れています。
Turtlebot3プラットフォームを使用した実際のテストは、以前に見えていない、または乱雑な屋内スペースへの堅牢な適応をさらに確認します。
この結果は、FH-DRLが、大規模または部分的に既知の環境でのフロンティアベースの探索のための効率的で一般化可能なアプローチとして強調しており、さまざまな自律運転、産業、およびサービスロボットのタスクに有望な方向性を提供します。

要約(オリジナル)

Autonomous robot exploration in large-scale or cluttered environments remains a central challenge in intelligent vehicle applications, where partial or absent prior maps constrain reliable navigation. This paper introduces FH-DRL, a novel framework that integrates a customizable heuristic function for frontier detection with a Twin Delayed DDPG (TD3) agent for continuous, high-speed local navigation. The proposed heuristic relies on an exponential-hyperbolic distance score, which balances immediate proximity against long-range exploration gains, and an occupancy-based stochastic measure, accounting for environmental openness and obstacle densities in real time. By ranking frontiers using these adaptive metrics, FH-DRL targets highly informative yet tractable waypoints, thereby minimizing redundant paths and total exploration time. We thoroughly evaluate FH-DRL across multiple simulated and real-world scenarios, demonstrating clear improvements in travel distance and completion time over frontier-only or purely DRL-based exploration. In structured corridor layouts and maze-like topologies, our architecture consistently outperforms standard methods such as Nearest Frontier, Cognet Frontier Exploration, and Goal Driven Autonomous Exploration. Real-world tests with a Turtlebot3 platform further confirm robust adaptation to previously unseen or cluttered indoor spaces. The results highlight FH-DRL as an efficient and generalizable approach for frontier-based exploration in large or partially known environments, offering a promising direction for various autonomous driving, industrial, and service robotics tasks.

arxiv情報

著者 Seunghyeop Nam,Tuan Anh Nguyen,Eunmi Choi,Dugki Min
発行日 2025-02-13 02:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | FH-DRL: Exponential-Hyperbolic Frontier Heuristics with DRL for accelerated Exploration in Unknown Environments はコメントを受け付けていません

EPN: An Ego Vehicle Planning-Informed Network for Target Trajectory Prediction

要約

軌道予測は、自動運転車の安全性を改善する上で重要な役割を果たします。
ただし、タスクの非常に動的でマルチモーダルな性質のため、ターゲット車両の将来の軌跡を正確に予測することは依然として重要な課題です。
この課題に対処するために、マルチモーダル軌道予測のためのエゴ車両計画情報ネットワーク(EPN)を提案します。
現実世界の運転では、車両の将来の軌跡は、それ自体の歴史的軌跡だけでなく、他の車両の行動によっても影響を受けます。
したがって、私たちは、車両間の相互の影響をシミュレートするための追加の入力として、エゴ車両の将来の計画された軌跡を組み込みます。
さらに、意図のあいまいさの課題と、運転の意図に基づいた方法でしばしば遭遇する大きな予測エラーに取り組むために、ターゲット車両のエンドポイント予測モジュールを提案します。
このモジュールは、ターゲットビークルエンドポイントを予測し、修正メカニズムを使用してそれらを改良し、マルチモーダル予測軌道を生成します。
実験結果は、EPNがNGSIMデータセットでRMSE、ADE、およびFDEで34.9%、30.7%、および30.4%の平均減少を達成し、RMSEで64.6%、64.5%、64.3%の平均減少、ADE、
highDデータセットのFDE。
コードは、手紙が受け入れられた後に開かれます。

要約(オリジナル)

Trajectory prediction plays a crucial role in improving the safety of autonomous vehicles. However, due to the highly dynamic and multimodal nature of the task, accurately predicting the future trajectory of a target vehicle remains a significant challenge. To address this challenge, we propose an Ego vehicle Planning-informed Network (EPN) for multimodal trajectory prediction. In real-world driving, the future trajectory of a vehicle is influenced not only by its own historical trajectory, but also by the behavior of other vehicles. So, we incorporate the future planned trajectory of the ego vehicle as an additional input to simulate the mutual influence between vehicles. Furthermore, to tackle the challenges of intention ambiguity and large prediction errors often encountered in methods based on driving intentions, we propose an endpoint prediction module for the target vehicle. This module predicts the target vehicle endpoints, refines them using a correction mechanism, and generates a multimodal predicted trajectory. Experimental results demonstrate that EPN achieves an average reduction of 34.9%, 30.7%, and 30.4% in RMSE, ADE, and FDE on the NGSIM dataset, and an average reduction of 64.6%, 64.5%, and 64.3% in RMSE, ADE, and FDE on the HighD dataset. The code will be open sourced after the letter is accepted.

arxiv情報

著者 Saiqian Peng,Duanfeng Chu,Guanjie Li,Liping Lu,Jinxiang Wang
発行日 2025-02-13 03:28:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EPN: An Ego Vehicle Planning-Informed Network for Target Trajectory Prediction はコメントを受け付けていません

Training Trajectory Predictors Without Ground-Truth Data

要約

このペーパーでは、位置、見出し、速度を正確かつスムーズに推定できるフレームワークを紹介します。
この高品質の入力を使用して、Trajectron ++に基づいたシステムを提案し、正確な軌跡予測を一貫して生成できるようにします。
トレーニングに基本的な真実データを必要とする従来のモデルとは異なり、このアプローチはこの依存関係を排除します。
私たちの分析は、質の低い入力が騒々しいと信頼できない予測につながることを示しています。これはナビゲーションモジュールに有害である可能性があります。
入力データの品質とモデル出力の両方を評価して、入力ノイズの影響を説明します。
さらに、推定システムは、データが限られている場合でも、軌道予測モデルの効果的なトレーニングを可能にし、異なる環境で堅牢な予測を生成することを示しています。
実際のシナリオに軌道予測モデルを展開するためには、正確な推定が重要であり、当社のシステムは、さまざまなアプリケーションコンテキストで意味のある信頼できる結果を保証します。

要約(オリジナル)

This paper presents a framework capable of accurately and smoothly estimating position, heading, and velocity. Using this high-quality input, we propose a system based on Trajectron++, able to consistently generate precise trajectory predictions. Unlike conventional models that require ground-truth data for training, our approach eliminates this dependency. Our analysis demonstrates that poor quality input leads to noisy and unreliable predictions, which can be detrimental to navigation modules. We evaluate both input data quality and model output to illustrate the impact of input noise. Furthermore, we show that our estimation system enables effective training of trajectory prediction models even with limited data, producing robust predictions across different environments. Accurate estimations are crucial for deploying trajectory prediction models in real-world scenarios, and our system ensures meaningful and reliable results across various application contexts.

arxiv情報

著者 Mikolaj Kliniewski,Jesse Morris,Ian R. Manchester,Viorela Ila
発行日 2025-02-13 04:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Training Trajectory Predictors Without Ground-Truth Data はコメントを受け付けていません