X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

要約

人間のビデオは、ロボット操作ポリシーをトレーニングするためのスケーラブルな方法を提供しますが、標準の模倣学習アルゴリズムに必要なアクションラベルがありません。
既存の交差体のアプローチは、人間の動きをロボットアクションにマッピングしようとしますが、実施形態が大きく異なる場合に失敗することがよくあります。
ロボットポリシーを学習するために密集した転送可能な信号としてオブジェクトモーションを使用する実際のフレームワークであるX-SIMを提案します。
X-SIMは、RGBDヒューマンビデオからのフォトリアリックなシミュレーションを再構築し、オブジェクト中心の報酬を定義するオブジェクトの軌跡を追跡することから始めます。
これらの報酬は、シミュレーションで強化学習(RL)ポリシーを訓練するために使用されます。
学習ポリシーは、さまざまな視点と照明でレンダリングされた合成ロールアウトを使用して、画像条件付き拡散ポリシーに蒸留されます。
現実の世界に転送するために、X-SIは、展開中に実際の観測とシミュレーションを整列させるオンラインドメイン適応手法を導入します。
重要なことに、X-SIMはロボットテレオ操作データを必要としません。
2つの環境で5つの操作タスクで評価し、次のことを示します。(1)ハンドトラッキングおよびSIMからリアルのベースラインよりも平均30%を改善し、(2)データ収集時間の10倍の少ない動作と一致し、(3)新しいカメラの視点とテスト時間の変更に一般化します。
コードとビデオはhttps://portal-cornell.github.io/x-sim/で入手できます。

要約(オリジナル)

Human videos offer a scalable way to train robot manipulation policies, but lack the action labels needed by standard imitation learning algorithms. Existing cross-embodiment approaches try to map human motion to robot actions, but often fail when the embodiments differ significantly. We propose X-Sim, a real-to-sim-to-real framework that uses object motion as a dense and transferable signal for learning robot policies. X-Sim starts by reconstructing a photorealistic simulation from an RGBD human video and tracking object trajectories to define object-centric rewards. These rewards are used to train a reinforcement learning (RL) policy in simulation. The learned policy is then distilled into an image-conditioned diffusion policy using synthetic rollouts rendered with varied viewpoints and lighting. To transfer to the real world, X-Si introduces an online domain adaptation technique that aligns real and simulated observations during deployment. Importantly, X-Sim does not require any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2 environments and show that it: (1) improves task progress by 30% on average over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with 10x less data collection time, and (3) generalizes to new camera viewpoints and test-time changes. Code and videos are available at https://portal-cornell.github.io/X-Sim/.

arxiv情報

著者 Prithwish Dan,Kushal Kedia,Angela Chao,Edward Weiyi Duan,Maximus Adrian Pace,Wei-Chiu Ma,Sanjiban Choudhury
発行日 2025-05-11 19:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real はコメントを受け付けていません

SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation

要約

ロボット工学の効率的なパス計画、特に大規模で動的な環境内では、依然として重要なハードルです。
大規模な言語モデル(LLM)は強力な推論機能を提供しますが、その高い計算コストと動的シナリオでの適応性が限られていることは、エッジデバイスでのリアルタイムの展開を妨げます。
SmallPlanを提示します。これは、高レベルのパス計画タスクのために軽量の小言語モデル(SLM)をトレーニングするための教師モデルとしてLLMを活用する新しいフレームワークです。
Smallplanでは、SLMSは、フルスケールの3Dシーンをコンパクトに表すシーングラフを横断する最適なアクションシーケンスを提供します。
SLMは、LLMガイド付きの監視施設微調整(SFT)および補強学習(RL)を使用して、シミュレーション駆動のインターリーブされた方法でトレーニングされています。
この戦略により、SLMSはナビゲーションタスクを正常に完了することを可能にするだけでなく、移動距離や試験数などの重要な要因を認識させることができます。
実験を通じて、微調整されたSLMSは、幻覚や過剰フィッティングに苦しむことなく、シーケンシャルパス計画でGPT-4Oなどのより大きなモデルと競合することを実証します。
Smallplanはリソース効率が高く、エッジデバイスの展開と実用的な自律的ロボット工学の進歩に適しています。
ソースコードはこちらから入手できます:https://github.com/quangpham2006/smallplan

要約(オリジナル)

Efficient path planning in robotics, particularly within large-scale, dynamic environments, remains a significant hurdle. While Large Language Models (LLMs) offer strong reasoning capabilities, their high computational cost and limited adaptability in dynamic scenarios hinder real-time deployment on edge devices. We present SmallPlan — a novel framework leveraging LLMs as teacher models to train lightweight Small Language Models (SLMs) for high-level path planning tasks. In SmallPlan, the SLMs provide optimal action sequences to navigate across scene graphs that compactly represent full-scaled 3D scenes. The SLMs are trained in a simulation-powered, interleaved manner with LLM-guided supervised fine-tuning (SFT) and reinforcement learning (RL). This strategy not only enables SLMs to successfully complete navigation tasks but also makes them aware of important factors like travel distance and number of trials. Through experiments, we demonstrate that the fine-tuned SLMs perform competitively with larger models like GPT-4o on sequential path planning, without suffering from hallucination and overfitting. SmallPlan is resource-efficient, making it well-suited for edge-device deployment and advancing practical autonomous robotics. Our source code is available here: https://github.com/quangpham2006/SmallPlan

arxiv情報

著者 Quang P. M. Pham,Khoi T. N. Nguyen,Nhi H. Doan,Cuong A. Pham,Kentaro Inui,Dezhen Song
発行日 2025-05-11 20:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation はコメントを受け付けていません

Terrain-aware Low Altitude Path Planning

要約

この論文では、オンボードカメラと車両のポーズからRGB画像のみを使用して、リアルタイムでエアース(NOE)フライトの低標高計画計画を生成する問題を研究します。
私たちは、このタスクに関する標準的な動作クローニングアプローチで訓練されたポリシーを上回ることを可能にする行動のクローニングと自己監視学習を組み合わせた新しいトレーニング方法を提案します。
シミュレーション研究は、カスタムキャニオン地形で実行されます。

要約(オリジナル)

In this paper, we study the problem of generating low altitude path plans for nap-of-the-earth (NOE) flight in real time with only RGB images from onboard cameras and the vehicle pose. We propose a novel training method that combines behavior cloning and self-supervised learning that enables the learned policy to outperform the policy trained with standard behavior cloning approach on this task. Simulation studies are performed on a custom canyon terrain.

arxiv情報

著者 Yixuan Jia,Andrea Tagliabue,Navid Dadkhah Tehrani,Jonathan P. How
発行日 2025-05-11 22:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Terrain-aware Low Altitude Path Planning はコメントを受け付けていません

GeoNav: Empowering MLLMs with Explicit Geospatial Reasoning Abilities for Language-Goal Aerial Navigation

要約

言語ゴール航空ナビゲーションは、具体化されたAIにおける重大な課題であり、UAVがテキスト仕様に基づいて都市ブロックなどの複雑な環境でターゲットをローカライズすることを要求します。
多くの場合、屋内ナビゲーションから適合した既存の方法は、視野が限られているため、オブジェクト間の意味的な曖昧さ、構造化された空間推論の欠如により、拡大するのに苦労します。
この作業では、長距離ナビゲーションを有効にするための地理空間的に認識されているマルチモーダルエージェントであるGeonavを提案します。
Geonavは、3つのフェーズランドマークナビゲーション、ターゲット検索、および正確なローカリゼーションを模倣して、人間の粗からファインまでの空間戦略を模倣しています。
このような推論をサポートするために、2つの異なるタイプの空間メモリを動的に構築します。
1つ目は、以前のテキストの地理的知識を融合させ、視覚的な手がかりを具体化し、ランドマーク地域への高速ナビゲーションのためにトップダウンの注釈付き形式に融合したグローバルであるが概略的な認知マップです。
2つ目は、明確なターゲットローカリゼーションに使用されるブロック、ランドマーク、およびオブジェクト間の階層的な空間的関係を表すローカルで繊細なシーングラフです。
この構造化された表現に加えて、Geonavは、段階全体で効率的で解釈可能な意思決定を備えたマルチモーダルの大手言語モデルを可能にするために、空間的に認識されたマルチモーダルチェーンのプロンプトメカニズムを採用しています。
CityNav Urban Navigation Benchmarkでは、Geonavは、成功率が最大12.53%の現在の最先端を上回り、ハードレベルのタスクであってもナビゲーション効率を大幅に向上させます。
アブレーション研究は、各モジュールの重要性を強調し、地理空間表現と粗から洗練された推論がUAVナビゲーションを強化する方法を紹介します。

要約(オリジナル)

Language-goal aerial navigation is a critical challenge in embodied AI, requiring UAVs to localize targets in complex environments such as urban blocks based on textual specification. Existing methods, often adapted from indoor navigation, struggle to scale due to limited field of view, semantic ambiguity among objects, and lack of structured spatial reasoning. In this work, we propose GeoNav, a geospatially aware multimodal agent to enable long-range navigation. GeoNav operates in three phases-landmark navigation, target search, and precise localization-mimicking human coarse-to-fine spatial strategies. To support such reasoning, it dynamically builds two different types of spatial memory. The first is a global but schematic cognitive map, which fuses prior textual geographic knowledge and embodied visual cues into a top-down, annotated form for fast navigation to the landmark region. The second is a local but delicate scene graph representing hierarchical spatial relationships between blocks, landmarks, and objects, which is used for definite target localization. On top of this structured representation, GeoNav employs a spatially aware, multimodal chain-of-thought prompting mechanism to enable multimodal large language models with efficient and interpretable decision-making across stages. On the CityNav urban navigation benchmark, GeoNav surpasses the current state-of-the-art by up to 12.53% in success rate and significantly improves navigation efficiency, even in hard-level tasks. Ablation studies highlight the importance of each module, showcasing how geospatial representations and coarse-to-fine reasoning enhance UAV navigation.

arxiv情報

著者 Haotian Xu,Yue Hu,Chen Gao,Zhengqiu Zhu,Yong Zhao,Yong Li,Quanjun Yin
発行日 2025-05-12 00:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GeoNav: Empowering MLLMs with Explicit Geospatial Reasoning Abilities for Language-Goal Aerial Navigation はコメントを受け付けていません

DittoGym: Learning to Control Soft Shape-Shifting Robots

要約

ロボットの形態が特定のタスクを解決するために学習したポリシーと共同で最適化されているロボットの共同設計は、研究の新たな分野です。
これは、学習された形態とアクチュエーターを実現できる新しい製造技術に適したソフトロボットに特に有望です。
自然と最近の斬新なロボットのデザインに触発されて、私たちはさらに一歩進んで、生涯以内に形態を変えることができるロボットとして定義された新しい再構成可能なロボットを探求することを提案します。
再構成可能なソフトロボットの制御を、高次元の強化学習(RL)問題として正式にしています。
同じアクション空間での形態の変化、移動、環境の相互作用を統一し、結果として生じるロボットの細粒制御を達成するポリシーを発見できる適切な粗から洗練されたカリキュラムを導入します。
また、タスクを達成するために細かい形態の変化を必要とする再構成可能なソフトロボットの包括的なRLベンチマークであるDittogymも紹介します。
最後に、Dittogymで提案されている粗からファインまでのアルゴリズムを評価し、RLアルゴリズムによってユニークに有効にされたシーケンス内で数回その形態を数回変化させることを学ぶロボットを実証します。
さらに結果は、https://suninghuang19.github.io/dittogym_page/で入手できます。

要約(オリジナル)

Robot co-design, where the morphology of a robot is optimized jointly with a learned policy to solve a specific task, is an emerging area of research. It holds particular promise for soft robots, which are amenable to novel manufacturing techniques that can realize learned morphologies and actuators. Inspired by nature and recent novel robot designs, we propose to go a step further and explore the novel reconfigurable robots, defined as robots that can change their morphology within their lifetime. We formalize control of reconfigurable soft robots as a high-dimensional reinforcement learning (RL) problem. We unify morphology change, locomotion, and environment interaction in the same action space, and introduce an appropriate, coarse-to-fine curriculum that enables us to discover policies that accomplish fine-grained control of the resulting robots. We also introduce DittoGym, a comprehensive RL benchmark for reconfigurable soft robots that require fine-grained morphology changes to accomplish the tasks. Finally, we evaluate our proposed coarse-to-fine algorithm on DittoGym and demonstrate robots that learn to change their morphology several times within a sequence, uniquely enabled by our RL algorithm. More results are available at https://suninghuang19.github.io/dittogym_page/.

arxiv情報

著者 Suning Huang,Boyuan Chen,Huazhe Xu,Vincent Sitzmann
発行日 2025-05-12 01:12:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | DittoGym: Learning to Control Soft Shape-Shifting Robots はコメントを受け付けていません

Articulate AnyMesh: Open-Vocabulary 3D Articulated Objects Modeling

要約

3Dの明確なオブジェクトモデリングは、正確な表面幾何学と意味的に意味のある空間的に正確な構造、部分、および関節の両方をキャプチャする必要があるため、長い間困難な問題でした。
既存の方法は、限られた手作りの明確なオブジェクトカテゴリ(キャビネットや引き出しなど)からのトレーニングデータに大きく依存しており、これにより、幅広い範囲の明確なオブジェクトをオープンボキャブラリーコンテキストでモデル化する能力を制限しています。
これらの制限に対処するために、剛性のある3Dメッシュをオープンポンシャル方法で明確なカウンターパートに変換できる自動化されたフレームワークであるAnticulate Anymeshを提案します。
3Dメッシュを考えると、当社のフレームワークは、高度なビジョン言語モデルと視覚的なプロンプト技術を利用して意味情報を抽出し、オブジェクトパーツのセグメンテーションと機能的ジョイントの構築の両方を可能にします。
我々の実験は、アリチュレートアニシュが、ツール、おもちゃ、機械装置、車両などの大規模で高品質の3Dアーティキュレートオブジェクトを生成し、既存の3D明確なオブジェクトデータセットのカバレッジを大幅に拡大できることを示しています。
さらに、これらの生成された資産が、シミュレーションにおける新しい明確なオブジェクト操作スキルの獲得を促進し、実際のロボットシステムに転送できることを示しています。
GitHubのWebサイトはhttps://articulate-anymesh.github.ioです。

要約(オリジナル)

3D articulated objects modeling has long been a challenging problem, since it requires to capture both accurate surface geometries and semantically meaningful and spatially precise structures, parts, and joints. Existing methods heavily depend on training data from a limited set of handcrafted articulated object categories (e.g., cabinets and drawers), which restricts their ability to model a wide range of articulated objects in an open-vocabulary context. To address these limitations, we propose Articulate Anymesh, an automated framework that is able to convert any rigid 3D mesh into its articulated counterpart in an open-vocabulary manner. Given a 3D mesh, our framework utilizes advanced Vision-Language Models and visual prompting techniques to extract semantic information, allowing for both the segmentation of object parts and the construction of functional joints. Our experiments show that Articulate Anymesh can generate large-scale, high-quality 3D articulated objects, including tools, toys, mechanical devices, and vehicles, significantly expanding the coverage of existing 3D articulated object datasets. Additionally, we show that these generated assets can facilitate the acquisition of new articulated object manipulation skills in simulation, which can then be transferred to a real robotic system. Our Github website is https://articulate-anymesh.github.io.

arxiv情報

著者 Xiaowen Qiu,Jincheng Yang,Yian Wang,Zhehuan Chen,Yufei Wang,Tsun-Hsuan Wang,Zhou Xian,Chuang Gan
発行日 2025-05-12 01:53:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Articulate AnyMesh: Open-Vocabulary 3D Articulated Objects Modeling はコメントを受け付けていません

Stereo Hand-Object Reconstruction for Human-to-Robot Handover

要約

ハンドとオブジェクトの形状を共同で推定すると、人間からロボットの握手の把握タスクが容易になります。
ただし、目に見えないオブジェクトに一般化すると、オブジェクトの幾何学的構造に関する手作りの事前知識に依存すると、深さセンサーがメガネを飲むなどの透明なオブジェクトを検出できません。
この作業では、シングルビューの再構成を確率的に組み合わせてコヒーレントステレオ再構成を形成するハンドオブジェクト再構成のためのステレオベースの方法を提案します。
大規模な合成ハンドオブジェクトデータセットから3Dシェイププリエアを学習して、メソッドが一般化可能であることを確認し、RGB入力を使用して透明なオブジェクトをより適切にキャプチャします。
単一ビューとステレオ設定での既存のRGBベースのハンドオブジェクト再構築方法と比較して、この方法がオブジェクト面積距離を減らすことを示します。
投影ベースの外れ値除去ステップで再構築されたハンドオブジェクトの形状を処理し、出力を使用して、ワイドベースラインステレオRGBカメラを備えたヒューマンツーロボットハンドオーバーパイプラインをガイドします。
当社の手観オブジェクトの再構築により、ロボットは人間から多様な範囲の家庭用品を正常に受け取ることができます。

要約(オリジナル)

Jointly estimating hand and object shape facilitates the grasping task in human-to-robot handovers. However, relying on hand-crafted prior knowledge about the geometric structure of the object fails when generalising to unseen objects, and depth sensors fail to detect transparent objects such as drinking glasses. In this work, we propose a stereo-based method for hand-object reconstruction that combines single-view reconstructions probabilistically to form a coherent stereo reconstruction. We learn 3D shape priors from a large synthetic hand-object dataset to ensure that our method is generalisable, and use RGB inputs to better capture transparent objects. We show that our method reduces the object Chamfer distance compared to existing RGB based hand-object reconstruction methods on single view and stereo settings. We process the reconstructed hand-object shape with a projection-based outlier removal step and use the output to guide a human-to-robot handover pipeline with wide-baseline stereo RGB cameras. Our hand-object reconstruction enables a robot to successfully receive a diverse range of household objects from the human.

arxiv情報

著者 Yik Lung Pang,Alessio Xompero,Changjae Oh,Andrea Cavallaro
発行日 2025-05-12 02:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Stereo Hand-Object Reconstruction for Human-to-Robot Handover はコメントを受け付けていません

Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection

要約

単一のドメインでトレーニングされたオブジェクト検出器を複数の目に見えないドメインに一般化することは、困難なタスクです。
既存の方法は通常、イメージまたは機能の増強を導入して、ソースドメインを多様化して検出器の堅牢性を高めます。
Vision-Language Model(VLM)ベースの増強技術は効果的であることが証明されていますが、検出器のバックボーンがVLMの画像エンコーダーと同じ構造を持つ必要があり、検出器フレームワークの選択が制限されます。
この問題に対処するために、単一ドメイン一般化のための言語主導のデュアルスタイルミキシング(LDDS)を提案します。これは、VLMのセマンティック情報を完全に利用することでソースドメインを多様化します。
具体的には、VLMに埋め込まれたスタイルセマンティクスを画像翻訳ネットワークに転送するためのプロンプトを最初に構築します。
これにより、明示的なセマンティック情報を使用して、スタイルの多様化された画像の生成が容易になります。
次に、多様化した画像とソースドメイン画像の間の画像レベルのスタイルの混合を提案します。
これにより、特定の増強選択に依存することなく、画像増強のセマンティック情報を効果的に採掘します。
最後に、ダブルパイプラインの方法で機能レベルのスタイルのミキシングを提案し、機能の増強がモデルに依存しないことを可能にし、1段、2段、トランスベースの検出器を含む主流の検出器フレームワークとシームレスに動作することができます。
広範な実験は、漫画から普通の気象課題を含む、さまざまなベンチマークデータセットにわたるアプローチの有効性を示しています。
ソースコードと事前に訓練されたモデルは、https://github.com/qinhongda8/lddsで公開されます。

要約(オリジナル)

Generalizing an object detector trained on a single domain to multiple unseen domains is a challenging task. Existing methods typically introduce image or feature augmentation to diversify the source domain to raise the robustness of the detector. Vision-Language Model (VLM)-based augmentation techniques have been proven to be effective, but they require that the detector’s backbone has the same structure as the image encoder of VLM, limiting the detector framework selection. To address this problem, we propose Language-Driven Dual Style Mixing (LDDS) for single-domain generalization, which diversifies the source domain by fully utilizing the semantic information of the VLM. Specifically, we first construct prompts to transfer style semantics embedded in the VLM to an image translation network. This facilitates the generation of style diversified images with explicit semantic information. Then, we propose image-level style mixing between the diversified images and source domain images. This effectively mines the semantic information for image augmentation without relying on specific augmentation selections. Finally, we propose feature-level style mixing in a double-pipeline manner, allowing feature augmentation to be model-agnostic and can work seamlessly with the mainstream detector frameworks, including the one-stage, two-stage, and transformer-based detectors. Extensive experiments demonstrate the effectiveness of our approach across various benchmark datasets, including real to cartoon and normal to adverse weather tasks. The source code and pre-trained models will be publicly available at https://github.com/qinhongda8/LDDS.

arxiv情報

著者 Hongda Qin,Xiao Lu,Zhiyong Wei,Yihong Cao,Kailun Yang,Ningjiang Chen
発行日 2025-05-12 04:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection はコメントを受け付けていません

UAV-CodeAgents: Scalable UAV Mission Planning via Multi-Agent ReAct and Vision-Language Reasoning

要約

大規模な言語およびビジョン言語モデル(LLMS/VLMS)に基づいて構築された、自律的なUAVミッション生成のためのスケーラブルなマルチエージェントフレームワークであるUAV共同体を提示します。
このシステムは、衛星画像、地上の自然言語の指示を解釈し、最小限の人間の監督でUAV軌道を共同で生成するために、React(Reason + Act)パラダイムを活用します。
コアコンポーネントは、航空マップ上のセマンティックターゲットの正確なローカリゼーションを可能にする視覚に基づいたピクセルポイントメカニズムです。
リアルタイムの適応性をサポートするために、リアクティブ思考ループを導入し、エージェントが観察を繰り返し反映し、ミッションの目標を修正し、進化する環境で動的に調整できるようにします。
UAV共同体は、産業および環境の火災検出を含む大規模なミッションシナリオで評価されます。
我々の結果は、デコード温度が低い(0.5)、平均ミッション作成時間が96.96秒、成功率が93%で、計画の信頼性が高く、実行時間が短縮されることを示しています。
さらに、9,000の注釈付き衛星画像でQWEN2.5VL-7Bを微調整し、多様な視覚カテゴリにわたって強力な空間的接地を達成します。
再現性と将来の研究を促進するために、Vision言語ベースのUAV計画のための完全なコードベースと新しいベンチマークデータセットをリリースします。

要約(オリジナル)

We present UAV-CodeAgents, a scalable multi-agent framework for autonomous UAV mission generation, built on large language and vision-language models (LLMs/VLMs). The system leverages the ReAct (Reason + Act) paradigm to interpret satellite imagery, ground high-level natural language instructions, and collaboratively generate UAV trajectories with minimal human supervision. A core component is a vision-grounded, pixel-pointing mechanism that enables precise localization of semantic targets on aerial maps. To support real-time adaptability, we introduce a reactive thinking loop, allowing agents to iteratively reflect on observations, revise mission goals, and coordinate dynamically in evolving environments. UAV-CodeAgents is evaluated on large-scale mission scenarios involving industrial and environmental fire detection. Our results show that a lower decoding temperature (0.5) yields higher planning reliability and reduced execution time, with an average mission creation time of 96.96 seconds and a success rate of 93%. We further fine-tune Qwen2.5VL-7B on 9,000 annotated satellite images, achieving strong spatial grounding across diverse visual categories. To foster reproducibility and future research, we will release the full codebase and a novel benchmark dataset for vision-language-based UAV planning.

arxiv情報

著者 Oleg Sautenkov,Yasheerah Yaqoot,Muhammad Ahsan Mustafa,Faryal Batool,Jeffrin Sam,Artem Lykov,Chih-Yung Wen,Dzmitry Tsetserukou
発行日 2025-05-12 05:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | UAV-CodeAgents: Scalable UAV Mission Planning via Multi-Agent ReAct and Vision-Language Reasoning はコメントを受け付けていません

Towards Accurate State Estimation: Kalman Filter Incorporating Motion Dynamics for 3D Multi-Object Tracking

要約

この作業は、3Dマルチオブジェクト追跡(MOT)のカルマンフィルターの状態推定における精度の重大な欠如と、適切なモーションモデルを選択する継続的な課題に対処します。
既存の文献は、一般に、オブジェクトの状態を推定するための一定のモーションモデルに依存しており、各オブジェクトに固有の複雑なモーションダイナミクスを無視しています。
その結果、特に閉塞条件下では、軌跡分裂と不正確なオブジェクトのローカリゼーションが発生します。
これらの課題の中核は、オブジェクトが環境をナビゲートするときのモーションダイナミクスの変動性を説明できない現在のカルマンフィルター製剤の限界にあります。
この作業では、モーションダイナミクスを組み込んだカルマンフィルターの新しい定式化を導入し、モーションモデルがオブジェクトの動きの変化に応じて適応的に調整できるようにします。
提案されたカルマンフィルターは、従来のカルマンフィルターと比較して、状態の推定、局在、軌道予測を大幅に改善します。
これは、KittiおよびWaymoオープンデータセットの最近のベンチマークを上回る追跡パフォーマンスに反映されており、それぞれ0.56 \%と0.81 \%のマージンが高次追跡精度(HOTA)およびマルチオブジェクト追跡精度(MOTA)のマージンがあります。
さらに、提案されたKalmanフィルターは、さまざまな検出器全体でベースラインを常に上回っています。
さらに、ベースラインカルマンフィルターと比較して長い閉塞を管理する能力が強化され、高次追跡精度(HOTA)で1.22 \%、キッティデータセットのマルチオブジェクト追跡精度(MOTA)で1.55 \%のマージンを達成します。
定式化の効率は明らかであり、追加の処理時間はフレームあたり約0.078ミリ秒しかないため、リアルタイムアプリケーションでの適用性が保証されています。

要約(オリジナル)

This work addresses the critical lack of precision in state estimation in the Kalman filter for 3D multi-object tracking (MOT) and the ongoing challenge of selecting the appropriate motion model. Existing literature commonly relies on constant motion models for estimating the states of objects, neglecting the complex motion dynamics unique to each object. Consequently, trajectory division and imprecise object localization arise, especially under occlusion conditions. The core of these challenges lies in the limitations of the current Kalman filter formulation, which fails to account for the variability of motion dynamics as objects navigate their environments. This work introduces a novel formulation of the Kalman filter that incorporates motion dynamics, allowing the motion model to adaptively adjust according to changes in the object’s movement. The proposed Kalman filter substantially improves state estimation, localization, and trajectory prediction compared to the traditional Kalman filter. This is reflected in tracking performance that surpasses recent benchmarks on the KITTI and Waymo Open Datasets, with margins of 0.56\% and 0.81\% in higher order tracking accuracy (HOTA) and multi-object tracking accuracy (MOTA), respectively. Furthermore, the proposed Kalman filter consistently outperforms the baseline across various detectors. Additionally, it shows an enhanced capability in managing long occlusions compared to the baseline Kalman filter, achieving margins of 1.22\% in higher order tracking accuracy (HOTA) and 1.55\% in multi-object tracking accuracy (MOTA) on the KITTI dataset. The formulation’s efficiency is evident, with an additional processing time of only approximately 0.078 ms per frame, ensuring its applicability in real-time applications.

arxiv情報

著者 Mohamed Nagy,Naoufel Werghi,Bilal Hassan,Jorge Dias,Majid Khonji
発行日 2025-05-12 06:09:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Towards Accurate State Estimation: Kalman Filter Incorporating Motion Dynamics for 3D Multi-Object Tracking はコメントを受け付けていません