PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning

要約

将来のシーンの表現を予測することは、ロボットが環境を理解して対話できるようにするための重要なタスクです。
ただし、ほとんどの既存の方法は、正確なアクション注釈を備えたビデオとシミュレーションに依存しており、利用可能な大量の非標識ビデオデータを活用する能力を制限しています。
この課題に対処するために、オブジェクト中心のビデオ予測モデルであるPlayslotを提案します。これは、オブジェクト表現と潜在的なアクションを非標識ビデオシーケンスから推進します。
次に、これらの表現を使用して、将来のオブジェクト状態とビデオフレームを予測します。
Playslotは、ユーザーが提供するビデオダイナミクスから推測できる、または学習したアクションポリシーによって生成されるため、多目的で解釈可能な世界モデリングを可能にする潜在的なアクションに条件付けられた複数の可能な先物の生成を可能にします。
私たちの結果は、プレイスロットが、さまざまな環境でビデオ予測のために確率的およびオブジェクト中心の両方のベースラインよりも優れていることを示しています。
さらに、推測された潜在アクションを使用して、ラベルのないビデオデモンストレーションからロボットの動作をサンプル効率的に学習できることを示しています。
ビデオとコードは、https://play-slot.github.io/playslot/で入手できます。

要約(オリジナル)

Predicting future scene representations is a crucial task for enabling robots to understand and interact with the environment. However, most existing methods rely on videos and simulations with precise action annotations, limiting their ability to leverage the large amount of available unlabeled video data. To address this challenge, we propose PlaySlot, an object-centric video prediction model that infers object representations and latent actions from unlabeled video sequences. It then uses these representations to forecast future object states and video frames. PlaySlot allows the generation of multiple possible futures conditioned on latent actions, which can be inferred from video dynamics, provided by a user, or generated by a learned action policy, thus enabling versatile and interpretable world modeling. Our results show that PlaySlot outperforms both stochastic and object-centric baselines for video prediction across different environments. Furthermore, we show that our inferred latent actions can be used to learn robot behaviors sample-efficiently from unlabeled video demonstrations. Videos and code are available on https://play-slot.github.io/PlaySlot/.

arxiv情報

著者 Angel Villar-Corrales,Sven Behnke
発行日 2025-05-21 12:44:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning はコメントを受け付けていません

Coloring Between the Lines: Personalization in the Null Space of Planning Constraints

要約

ジェネラリストのロボットは、長期ユーザーの多様なニーズと好みを満たすために、内部でパーソナライズする必要があります。
安全や能力を犠牲にすることなく、柔軟なパーソナライズを可能にするにはどうすればよいですか?
このペーパーでは、ロボット計画で使用される制約満足度問題(CSP)のヌル空間を活用するパーソナライズの方法であるライン(CBTL)間の着色を提案します。
CBTLは、安全で有能な動作を保証するCSPジェネレーターから始まり、オンラインインタラクションからパラメーター化された制約を学習することにより、行動を徐々にパーソナリティ化します。
不確実性を定量化し、計画制約の構成性を活用することにより、CBTLは環境リセットなしでサンプル効率の高い適応を達成します。
(1)3つの多様なシミュレーション環境でCBTLを評価します。
(2)Webベースのユーザー調査。
(3)Real Robot Assisted Feeding Systemであり、CBTLはベースラインよりも少ない相互作用でより効果的なパーソナライズを一貫して達成することを発見しました。
我々の結果は、CBTLが継続的で柔軟で、アクティブで、安全なロボットのパーソナライズのための統一された実用的なアプローチを提供することを示しています。
ウェブサイト:https://emprise.cs.cornell.edu/cbtl/

要約(オリジナル)

Generalist robots must personalize in-the-wild to meet the diverse needs and preferences of long-term users. How can we enable flexible personalization without sacrificing safety or competency? This paper proposes Coloring Between the Lines (CBTL), a method for personalization that exploits the null space of constraint satisfaction problems (CSPs) used in robot planning. CBTL begins with a CSP generator that ensures safe and competent behavior, then incrementally personalizes behavior by learning parameterized constraints from online interaction. By quantifying uncertainty and leveraging the compositionality of planning constraints, CBTL achieves sample-efficient adaptation without environment resets. We evaluate CBTL in (1) three diverse simulation environments; (2) a web-based user study; and (3) a real-robot assisted feeding system, finding that CBTL consistently achieves more effective personalization with fewer interactions than baselines. Our results demonstrate that CBTL provides a unified and practical approach for continual, flexible, active, and safe robot personalization. Website: https://emprise.cs.cornell.edu/cbtl/

arxiv情報

著者 Tom Silver,Rajat Kumar Jenamani,Ziang Liu,Ben Dodson,Tapomayukh Bhattacharjee
発行日 2025-05-21 13:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Coloring Between the Lines: Personalization in the Null Space of Planning Constraints はコメントを受け付けていません

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

要約

ビジョン言語モデル(VLM)は、インターネットスケールの画像テキストコーパスを通じて、実際の知識と一般的な推論能力を獲得します。
シーンの理解とタスク計画でロボットシステムを強化し、ロボットの軌跡データで訓練された視覚運動ポリシーを支援することができます。
リバースパラダイムを調査します。これは、リッチでリアルなマルチモーダルロボット軌道データを使用して、VLMSを強化および評価します。
この論文では、VLMSの視覚的な質問(VQA)データセット生成フレームワークであるRobo2VLMを紹介します。
人間のテレ操作ロボットの軌跡を考えると、Robo2VLMは、エンド効果のポーズ、グリッパーアパーチャ、フォースセンシングなど、非視覚的および非記述的な感覚モダリティから根真実を導き出します。
これらのモダリティに基づいて、ロボット軌道を一連の操作フェーズにセグメント化します。
各フェーズで、Robo2VLMはシーンとインタラクションの理解を使用して、ロボット、タスク目標、およびターゲットオブジェクトの3Dプロパティを識別します。
プロパティは、代表的なVQAクエリ(テクスチャの多肢選択式質問を含む画像)を生成するために使用されます。
176kの実際のロボット軌道からの463の異なるシーンと3,396のロボット操作タスクをカバーする684,710の質問を備えた大規模なワイルドデータセットであるRobo2VLM-1をキュレートします。
結果は、Robo2VLM-1が空間および相互作用の推論におけるVLM機能をベンチマークおよび改善できることを示唆しています。

要約(オリジナル)

Vision-Language Models (VLMs) acquire real-world knowledge and general reasoning ability through Internet-scale image-text corpora. They can augment robotic systems with scene understanding and task planning, and assist visuomotor policies that are trained on robot trajectory data. We explore the reverse paradigm – using rich, real, multi-modal robot trajectory data to enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual Question Answering (VQA) dataset generation framework for VLMs. Given a human tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual and non-descriptive sensory modalities, such as end-effector pose, gripper aperture, and force sensing. Based on these modalities, it segments the robot trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses scene and interaction understanding to identify 3D properties of the robot, task goal, and the target object. The properties are used to generate representative VQA queries – images with textural multiple-choice questions – based on spatial, goal-conditioned, and interaction reasoning question templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710 questions covering 463 distinct scenes and 3,396 robotic manipulation tasks from 176k real robot trajectories. Results suggest that Robo2VLM-1 can benchmark and improve VLM capabilities in spatial and interaction reasoning.

arxiv情報

著者 Kaiyuan Chen,Shuangyu Xie,Zehan Ma,Ken Goldberg
発行日 2025-05-21 13:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO | Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets はコメントを受け付けていません

Robo-DM: Data Management For Large Robot Datasets

要約

最近の結果は、テレオ蒸発ロボットデモンストレーションの非常に大きなデータセットを使用して、新しいシーン、ロボット、タスクに一般化する可能性のある変圧器ベースのモデルをトレーニングできることを示唆しています。
ただし、通常、複数のカメラからのストリームを含むビデオ、テキスト、および数値モダリティで構成されるロボット軌道の大規模なデータセットのキュレーション、分散、ロードの依然として困難です。
ロボットデータを収集、共有、学習するための効率的なオープンソースクラウドベースのデータ管理ツールキットであるRobo-DMを提案します。
Robo-DMを使用すると、ロボットデータセットは、拡張可能なバイナリメタ言語(EBML)を備えた自己完結型形式に保存されます。
Robo-DMは、トレーニング中のロボット軌道データ、転送コスト、およびデータの読み込み時間を大幅に削減できます。
OXEデータセットで使用されるRLDS形式と比較して、Robo-DMの圧縮により、スペースが最大70倍(損失)および3.5倍(ロスレス)を節約します。
Robo-DMは、メモリマップデコードキャッシュを使用した負荷バランスビデオデコードにより、データの取得も加速します。
Losy Video Compressionも使用するフレームワークであるLerobotと比較して、Robo-DMは順次デコードすると最大50倍高速です。
Robo-DMによって訓練されたモデルを物理的に評価します。
Robo-DMは、元のデータセットの75倍の圧縮を使用しており、ダウンストリームタスクの精度が低下することはありません。

要約(オリジナル)

Recent results suggest that very large datasets of teleoperated robot demonstrations can be used to train transformer-based models that have the potential to generalize to new scenes, robots, and tasks. However, curating, distributing, and loading large datasets of robot trajectories, which typically consist of video, textual, and numerical modalities – including streams from multiple cameras – remains challenging. We propose Robo-DM, an efficient open-source cloud-based data management toolkit for collecting, sharing, and learning with robot data. With Robo-DM, robot datasets are stored in a self-contained format with Extensible Binary Meta Language (EBML). Robo-DM can significantly reduce the size of robot trajectory data, transfer costs, and data load time during training. Compared to the RLDS format used in OXE datasets, Robo-DM’s compression saves space by up to 70x (lossy) and 3.5x (lossless). Robo-DM also accelerates data retrieval by load-balancing video decoding with memory-mapped decoding caches. Compared to LeRobot, a framework that also uses lossy video compression, Robo-DM is up to 50x faster when decoding sequentially. We physically evaluate a model trained by Robo-DM with lossy compression, a pick-and-place task, and In-Context Robot Transformer. Robo-DM uses 75x compression of the original dataset and does not suffer reduction in downstream task accuracy.

arxiv情報

著者 Kaiyuan Chen,Letian Fu,David Huang,Yanxiang Zhang,Lawrence Yunliang Chen,Huang Huang,Kush Hari,Ashwin Balakrishna,Ted Xiao,Pannag R Sanketi,John Kubiatowicz,Ken Goldberg
発行日 2025-05-21 14:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG, cs.RO | Robo-DM: Data Management For Large Robot Datasets はコメントを受け付けていません

World Models as Reference Trajectories for Rapid Motor Adaptation

要約

現実世界の環境に学習制御ポリシーを展開することは、基本的な課題をもたらします。
システムのダイナミクスが予期せず変化すると、モデルが新しいデータで再試行されるまでパフォーマンスが低下します。
迅速な適応のための暗黙の参照軌跡として世界モデルの予測を使用する二重制御フレームワークであるReflexive World Models(RWM)を紹介します。
私たちの方法は、制御問題を、強化学習と迅速な潜在的な制御を介して堅牢な運動実行を通じて、長期的な報酬の最大化に分離します。
このデュアルアーキテクチャは、ほぼ最適なパフォーマンスを維持しながら、モデルベースのRLベースラインと比較して、オンライン計算コストが低いため、大幅に速い適応を実現します。
このアプローチは、強化学習を通じて柔軟なポリシー学習の利点を、急速なエラー補正機能と迅速なエラー補正機能を兼ね備えており、さまざまなダイナミクスの下で高次元連続制御タスクのパフォーマンスを維持するための原則的なアプローチを提供します。

要約(オリジナル)

Deploying learned control policies in real-world environments poses a fundamental challenge. When system dynamics change unexpectedly, performance degrades until models are retrained on new data. We introduce Reflexive World Models (RWM), a dual control framework that uses world model predictions as implicit reference trajectories for rapid adaptation. Our method separates the control problem into long-term reward maximization through reinforcement learning and robust motor execution through rapid latent control. This dual architecture achieves significantly faster adaptation with low online computational cost compared to model-based RL baselines, while maintaining near-optimal performance. The approach combines the benefits of flexible policy learning through reinforcement learning with rapid error correction capabilities, providing a principled approach to maintaining performance in high-dimensional continuous control tasks under varying dynamics.

arxiv情報

著者 Carlos Stein Brito,Daniel McNamee
発行日 2025-05-21 14:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | World Models as Reference Trajectories for Rapid Motor Adaptation はコメントを受け付けていません

Effective Sampling for Robot Motion Planning Through the Lens of Lattices

要約

(通常はランダムな)サンプリングを介してロボットの自由空間の構造をキャプチャするモーション計画のためのサンプリングベースの方法は、スケーラビリティ、シンプルさ、および確率的完全性や漸近最適性などのグローバルな保証を提供するために人気を獲得しました。
残念ながら、これらの保証の実用性は、有限数のサンプル(つまり、有限の実行時間)に対するモーションプランナーの動作に関する洞察を提供しないため、限られたままです。
この作業では、格子理論と$(\ delta、\ epsilon)$の概念を活用します – Tsao et al。
(2020)実行時間を最小限に抑えながら、プランナーに強い有限時間保証を与えた決定論的なサンプルセットを構築する。
特に、$ a_d^*$ latticeに基づいた高効率の決定的なサンプリングアプローチを導入します。
新しいサンプリングアプローチを使用して、複雑なモーションプランニング問題のための既存の決定論的で均一なランダムサンプリング方法よりも少なくとも秩序のスピードアップを取得します。
全体として、私たちの仕事は、サンプリングベースのモーション計画の実際的な適用性を進めながら、深い数学的洞察を提供します。

要約(オリジナル)

Sampling-based methods for motion planning, which capture the structure of the robot’s free space via (typically random) sampling, have gained popularity due to their scalability, simplicity, and for offering global guarantees, such as probabilistic completeness and asymptotic optimality. Unfortunately, the practicality of those guarantees remains limited as they do not provide insights into the behavior of motion planners for a finite number of samples (i.e., a finite running time). In this work, we harness lattice theory and the concept of $(\delta,\epsilon)$-completeness by Tsao et al. (2020) to construct deterministic sample sets that endow their planners with strong finite-time guarantees while minimizing running time. In particular, we introduce a highly-efficient deterministic sampling approach based on the $A_d^*$ lattice, which is the best-known geometric covering in dimensions $\leq 21$. Using our new sampling approach, we obtain at least an order-of-magnitude speedup over existing deterministic and uniform random sampling methods for complex motion-planning problems. Overall, our work provides deep mathematical insights while advancing the practical applicability of sampling-based motion planning.

arxiv情報

著者 Itai Panasoff,Kiril Solovey
発行日 2025-05-21 15:08:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.DM, cs.RO | Effective Sampling for Robot Motion Planning Through the Lens of Lattices はコメントを受け付けていません

FLARE: Robot Learning with Implicit World Modeling

要約

$ \ textbf {f} $ uture $ \ textbf {la} $ $ \ textbf {re} $プレゼンテーションalignment($ \ textbf {flare} $)を紹介します。
将来の観測の潜在的な埋め込みを備えた拡散トランスからの機能を整列させることにより、$ \ textBf {flare} $を有効にします。
驚くほど軽量である$ \ textBf {flare} $には、標準のビジョン言語アクション(VLA)モデルにいくつかのトークンを追加する最小限のアーキテクチャの変更のみが必要ですが、かなりのパフォーマンスの向上を実現します。
単一の腕とヒューマノイドの卓上操作にまたがる2つの挑戦的なマルチタスクシミュレーション模倣学習ベンチマークにまたがって、$ \ textBf {flare} $は最新のパフォーマンスを達成し、以前のポリシー学習ベースラインを最大26%上回ります。
さらに、$ \ textbf {flare} $は、アクションラベルなしで人間のエゴセントリックビデオデモンストレーションと共同訓練する能力を解き放ち、1つのロボットデモンストレーションを持つ目に見えないジオメトリを持つ新しいオブジェクトへのポリシーの一般化を大幅に高めます。
私たちの結果は、暗黙の世界モデリングと高頻度のロボット制御を組み合わせるための一般的かつスケーラブルなアプローチとして$ \ textBf {flare} $を確立します。

要約(オリジナル)

We introduce $\textbf{F}$uture $\textbf{LA}$tent $\textbf{RE}$presentation Alignment ($\textbf{FLARE}$), a novel framework that integrates predictive latent world modeling into robot policy learning. By aligning features from a diffusion transformer with latent embeddings of future observations, $\textbf{FLARE}$ enables a diffusion transformer policy to anticipate latent representations of future observations, allowing it to reason about long-term consequences while generating actions. Remarkably lightweight, $\textbf{FLARE}$ requires only minimal architectural modifications — adding a few tokens to standard vision-language-action (VLA) models — yet delivers substantial performance gains. Across two challenging multitask simulation imitation learning benchmarks spanning single-arm and humanoid tabletop manipulation, $\textbf{FLARE}$ achieves state-of-the-art performance, outperforming prior policy learning baselines by up to 26%. Moreover, $\textbf{FLARE}$ unlocks the ability to co-train with human egocentric video demonstrations without action labels, significantly boosting policy generalization to a novel object with unseen geometry with as few as a single robot demonstration. Our results establish $\textbf{FLARE}$ as a general and scalable approach for combining implicit world modeling with high-frequency robotic control.

arxiv情報

著者 Ruijie Zheng,Jing Wang,Scott Reed,Johan Bjorck,Yu Fang,Fengyuan Hu,Joel Jang,Kaushil Kundalia,Zongyu Lin,Loic Magne,Avnish Narayan,You Liang Tan,Guanzhi Wang,Qi Wang,Jiannan Xiang,Yinzhen Xu,Seonghyeon Ye,Jan Kautz,Furong Huang,Yuke Zhu,Linxi Fan
発行日 2025-05-21 15:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | FLARE: Robot Learning with Implicit World Modeling はコメントを受け付けていません

SwarmDiff: Swarm Robotic Trajectory Planning in Cluttered Environments via Diffusion Transformer

要約

群れのロボット軌道計画は、特に複雑で障害の強い環境で、計算効率、スケーラビリティ、安全性の課題に直面しています。
これらの問題に対処するために、群れロボットの階層的でスケーラブルな生成フレームワークであるSwarmDiffを提案します。
確率密度関数(PDF)を使用して群れの巨視的状態をモデル化し、条件付き拡散モデルを活用してリスク認識の巨視的軌道分布を生成し、顕微鏡レベルで個々のロボット軌道の生成を導きます。
Swarmの最適な輸送とリスク認識のバランスを確保するために、Wasserstein MetricsとRiskの条件価値(CVAR)を統合します。
さらに、長距離依存関係をキャプチャすることにより、サンプリング効率と生成品質を改善するために、拡散トランス(DIT)を導入します。
広範なシミュレーションと現実世界の実験は、SwarmDiffが計算効率、軌跡の妥当性、およびスケーラビリティの既存の方法を上回ることを示しており、それを群れのロボット軌道計画の信頼できるソリューションにしていることを示しています。

要約(オリジナル)

Swarm robotic trajectory planning faces challenges in computational efficiency, scalability, and safety, particularly in complex, obstacle-dense environments. To address these issues, we propose SwarmDiff, a hierarchical and scalable generative framework for swarm robots. We model the swarm’s macroscopic state using Probability Density Functions (PDFs) and leverage conditional diffusion models to generate risk-aware macroscopic trajectory distributions, which then guide the generation of individual robot trajectories at the microscopic level. To ensure a balance between the swarm’s optimal transportation and risk awareness, we integrate Wasserstein metrics and Conditional Value at Risk (CVaR). Additionally, we introduce a Diffusion Transformer (DiT) to improve sampling efficiency and generation quality by capturing long-range dependencies. Extensive simulations and real-world experiments demonstrate that SwarmDiff outperforms existing methods in computational efficiency, trajectory validity, and scalability, making it a reliable solution for swarm robotic trajectory planning.

arxiv情報

著者 Kang Ding,Chunxuan Jiao,Yunze Hu,Kangjie Zhou,Pengying Wu,Yao Mu,Chang Liu
発行日 2025-05-21 15:56:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | SwarmDiff: Swarm Robotic Trajectory Planning in Cluttered Environments via Diffusion Transformer はコメントを受け付けていません

From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems

要約

基礎モデル(FMS)は、具体化されたエージェントの言語とアクションを橋渡しするためにますます使用されていますが、さまざまなFM統合戦略の運用特性は、特に変化する環境における複雑な指導と汎用性の高いアクション生成のために、依存していないままです。
このペーパーでは、ロボットシステムを構築するための3つのパラダイムを検証します:知覚と計画を暗黙的に統合するエンドツーエンドのビジョン言語アクション(VLA)モデル、および視覚言語モデル(VLMS)またはマルチモーダルの大手言語モデル(LLM)のいずれかを組み込んだモジュラーパイプライン。
これらのパラダイムを2つの焦点を絞ったケーススタディを使用して評価します。微調整された命令の理解とクロスモーダルの分解を評価する複雑な命令接地タスクと、VLA Finetuningを介したスキル転送をターゲットとするオブジェクト操作タスクです。
ゼロショットと少数のショット設定での実験により、一般化とデータ効率のトレードオフが明らかになりました。
パフォーマンスの制限を調査することにより、言語主導の物理エージェントを開発するための設計の影響を蒸留し、実際の条件でFM駆動のロボット工学の新たな課題と機会を概説します。

要約(オリジナル)

Foundation models (FMs) are increasingly used to bridge language and action in embodied agents, yet the operational characteristics of different FM integration strategies remain under-explored — particularly for complex instruction following and versatile action generation in changing environments. This paper examines three paradigms for building robotic systems: end-to-end vision-language-action (VLA) models that implicitly integrate perception and planning, and modular pipelines incorporating either vision-language models (VLMs) or multimodal large language models (LLMs). We evaluate these paradigms through two focused case studies: a complex instruction grounding task assessing fine-grained instruction understanding and cross-modal disambiguation, and an object manipulation task targeting skill transfer via VLA finetuning. Our experiments in zero-shot and few-shot settings reveal trade-offs in generalization and data efficiency. By exploring performance limits, we distill design implications for developing language-driven physical agents and outline emerging challenges and opportunities for FM-powered robotics in real-world conditions.

arxiv情報

著者 Xiuchao Sui,Daiying Tian,Qi Sun,Ruirui Chen,Dongkyu Choi,Kenneth Kwok,Soujanya Poria
発行日 2025-05-21 16:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems はコメントを受け付けていません

UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

要約

無人航空機(UAV)は、言語相互作用プラットフォームに進化しており、より直感的な形態の人間ドローン相互作用を可能にします。
以前の作品は主に高レベルの計画と長老のナビゲーションに焦点を当てていますが、言語誘導の細かい軌道コントロールに注意を払っています。
この問題を正式化して、単語の飛行(フロー)タスクとして形式化し、UAV模倣学習を効果的なアプローチとして導入します。
このフレームワークでは、UAVは、原子言語の指示と組み合わせた専門家のパイロット軌道を模倣することにより、きめ細かい制御ポリシーを学びます。
このパラダイムをサポートするために、言語条件付けされた細粒のUAVコントロールの最初の現実世界のベンチマークであるUAV-Flowを提示します。
これには、タスク策定、多様な環境で収集された大規模なデータセット、展開可能な制御フレームワーク、および体系的な評価のためのシミュレーションスイートが含まれます。
当社の設計により、UAVは人間のパイロットの正確で専門レベルの飛行軌跡を密接に模倣し、SIMからリアルのギャップなしで直接展開をサポートできます。
UAV-Flow、ベンチマークVLNおよびVLAパラダイムに関する広範な実験を実施します。
結果は、VLAモデルがVLNベースラインよりも優れていることを示しており、細粒の流れにおける空間接地の重要な役割を強調しています。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) are evolving into language-interactive platforms, enabling more intuitive forms of human-drone interaction. While prior works have primarily focused on high-level planning and long-horizon navigation, we shift attention to language-guided fine-grained trajectory control, where UAVs execute short-range, reactive flight behaviors in response to language instructions. We formalize this problem as the Flying-on-a-Word (Flow) task and introduce UAV imitation learning as an effective approach. In this framework, UAVs learn fine-grained control policies by mimicking expert pilot trajectories paired with atomic language instructions. To support this paradigm, we present UAV-Flow, the first real-world benchmark for language-conditioned, fine-grained UAV control. It includes a task formulation, a large-scale dataset collected in diverse environments, a deployable control framework, and a simulation suite for systematic evaluation. Our design enables UAVs to closely imitate the precise, expert-level flight trajectories of human pilots and supports direct deployment without sim-to-real gap. We conduct extensive experiments on UAV-Flow, benchmarking VLN and VLA paradigms. Results show that VLA models are superior to VLN baselines and highlight the critical role of spatial grounding in the fine-grained Flow setting.

arxiv情報

著者 Xiangyu Wang,Donglin Yang,Yue Liao,Wenhao Zheng,wenjun wu,Bin Dai,Hongsheng Li,Si Liu
発行日 2025-05-21 16:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning はコメントを受け付けていません