AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

要約

ビジョン言語モデル(VLM)は、自律運転の約束を示していますが、幻覚との闘い、非効率的な推論、および限られた実世界の検証は、正確な知覚と堅牢な段階的な推論を妨げます。
これを克服するために、\ textbf {agentthink}を紹介します。これは、初めて、自律運転タスクのためのダイナミックなエージェントスタイルのツールの呼び出しでチェーンの思考(COT)の推論を統合する先駆的な統一フレームワークです。
AgentThinkのコアイノベーションには、次のものが含まれます。
\ textBf {(ii)2段階のトレーニングパイプライン}。グループ相対ポリシー最適化(GRPO)を備えた監視付き微調整(SFT)を使用して、VLMSに自律的なツールの呼び出しの機能を装備しています。
および\ textBf {(iii)エージェントスタイルのツール使用評価}、モデルのツールの呼び出しと利用を厳密に評価するための新しいマルチツール評価プロトコルを導入します。
Drivelmm-O1ベンチマークでの実験により、AgentHinkは\ textBF {53.91 \%}の全体的な推論スコアを大幅に高め、\ textBF {33.54 \%}による回答の精度を高め、推論の質と一貫性を著しく改善します。
さらに、さまざまなベンチマークにわたるアブレーション研究と堅牢なゼロショット/少数のショット一般化実験は、その強力な機能を強調しています。
これらの調査結果は、信頼できるツールを意識する自律運転モデル​​を開発するための有望な軌跡を強調しています。

要約(オリジナル)

Vision-Language Models (VLMs) show promise for autonomous driving, yet their struggle with hallucinations, inefficient reasoning, and limited real-world validation hinders accurate perception and robust step-by-step reasoning. To overcome this, we introduce \textbf{AgentThink}, a pioneering unified framework that, for the first time, integrates Chain-of-Thought (CoT) reasoning with dynamic, agent-style tool invocation for autonomous driving tasks. AgentThink’s core innovations include: \textbf{(i) Structured Data Generation}, by establishing an autonomous driving tool library to automatically construct structured, self-verified reasoning data explicitly incorporating tool usage for diverse driving scenarios; \textbf{(ii) A Two-stage Training Pipeline}, employing Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO) to equip VLMs with the capability for autonomous tool invocation; and \textbf{(iii) Agent-style Tool-Usage Evaluation}, introducing a novel multi-tool assessment protocol to rigorously evaluate the model’s tool invocation and utilization. Experiments on the DriveLMM-o1 benchmark demonstrate AgentThink significantly boosts overall reasoning scores by \textbf{53.91\%} and enhances answer accuracy by \textbf{33.54\%}, while markedly improving reasoning quality and consistency. Furthermore, ablation studies and robust zero-shot/few-shot generalization experiments across various benchmarks underscore its powerful capabilities. These findings highlight a promising trajectory for developing trustworthy and tool-aware autonomous driving models.

arxiv情報

著者 Kangan Qian,Sicong Jiang,Yang Zhong,Ziang Luo,Zilin Huang,Tianze Zhu,Kun Jiang,Mengmeng Yang,Zheng Fu,Jinyu Miao,Yining Shi,He Zhe Lim,Li Liu,Tianbao Zhou,Hongyi Wang,Huang Yu,Yifei Hu,Guang Li,Guang Chen,Hao Ye,Lijun Sun,Diange Yang
発行日 2025-05-21 09:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO | AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving はコメントを受け付けていません

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control

要約

Vision-Language-active(VLA)モデルなど、Deep Neural Network(DNN)ベースのポリシーモデルは、マルチモーダル入力からの複雑な意思決定の自動化に優れています。
ただし、これらのモデルをスケーリングすると、計算オーバーヘッドが大幅に増加し、ロボット操作や自律運転などのリソース制約のある設定での展開が複雑になります。
これに対処するために、量子化を認識したトレーニングとミッションクリティカルな状態の選択的損失強調戦略を組み合わせた顕著性を認識した量子化された模倣学習(SQIL)を提案します。
これらの状態を顕著性スコアを介して特定し、トレーニング損失でそれらを強調することにより、SQILは低ビットの精度の下で決定の忠実度を保持します。
SQILの一般化機能は、環境のバリエーション、現実世界のタスク、およびクロスドメインタスク(自動運転、物理シミュレーション)を備えた広範なシミュレーションベンチマーク全体で検証し、一貫して全文パフォーマンスを回復します。
特に、ロボット操作用の4ビット重量定量化されたVLAモデルは、最小限の精度損失で最大2.5倍のスピードアップと2.5倍のエネルギー節約を達成します。
これらの結果は、リソース制限デバイスに大規模なILベースのポリシーモデルを効率的に展開するSQILの可能性を強調しています。

要約(オリジナル)

Deep neural network (DNN)-based policy models, such as vision-language-action (VLA) models, excel at automating complex decision-making from multi-modal inputs. However, scaling these models greatly increases computational overhead, complicating deployment in resource-constrained settings like robot manipulation and autonomous driving. To address this, we propose Saliency-Aware Quantized Imitation Learning (SQIL), which combines quantization-aware training with a selective loss-weighting strategy for mission-critical states. By identifying these states via saliency scores and emphasizing them in the training loss, SQIL preserves decision fidelity under low-bit precision. We validate SQIL’s generalization capability across extensive simulation benchmarks with environment variations, real-world tasks, and cross-domain tasks (self-driving, physics simulation), consistently recovering full-precision performance. Notably, a 4-bit weight-quantized VLA model for robotic manipulation achieves up to 2.5x speedup and 2.5x energy savings on an edge GPU with minimal accuracy loss. These results underline SQIL’s potential for efficiently deploying large IL-based policy models on resource-limited devices.

arxiv情報

著者 Seongmin Park,Hyungmin Kim,Sangwoo kim,Wonseok Jeon,Juyoung Yang,Byeongwook Jeon,Yoonseon Oh,Jungwook Choi
発行日 2025-05-21 09:35:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control はコメントを受け付けていません

Adaptive Diffusion Constrained Sampling for Bimanual Robot Manipulation

要約

調整されたマルチアーム操作には、高次元構成スペース全体で複数の同時幾何学的制約を満たす必要があります。これは、従来の計画と制御方法に大きな課題をもたらします。
この作業では、適応拡散制約付きサンプリング(ADC)を提案します。これは、平等(相対的および絶対ポーズ制約など)と構造化された不平等制約(例:オブジェクト表面に近接)の両方をエネルギーベースの拡散モデルに柔軟に統合する生成フレームワークを提案します。
平等制約は、嘘代数空間のポーズの違いについてトレーニングされた専用のエネルギーネットワークを使用してモデル化されますが、不等式の制約は署名された距離関数(SDF)を介して表され、学習制約の埋め込みにエンコードされ、モデルが複雑な空間領域について推論できるようにします。
私たちの方法の主要な革新は、推論時間に制約固有のエネルギー機能を重視することを学ぶ変圧器ベースのアーキテクチャです。
さらに、ランゲビンのダイナミクスと再サンプリングと密度認識の再重み付けを組み合わせることにより、精度とサンプルの多様性を改善する2相サンプリング戦略を採用します。
デュアルアーム操作タスクの実験結果は、ADCが正確な調整と適応的制約処理を必要とする設定全体のサンプルの多様性と一般化を大幅に改善することを示しています。

要約(オリジナル)

Coordinated multi-arm manipulation requires satisfying multiple simultaneous geometric constraints across high-dimensional configuration spaces, which poses a significant challenge for traditional planning and control methods. In this work, we propose Adaptive Diffusion Constrained Sampling (ADCS), a generative framework that flexibly integrates both equality (e.g., relative and absolute pose constraints) and structured inequality constraints (e.g., proximity to object surfaces) into an energy-based diffusion model. Equality constraints are modeled using dedicated energy networks trained on pose differences in Lie algebra space, while inequality constraints are represented via Signed Distance Functions (SDFs) and encoded into learned constraint embeddings, allowing the model to reason about complex spatial regions. A key innovation of our method is a Transformer-based architecture that learns to weight constraint-specific energy functions at inference time, enabling flexible and context-aware constraint integration. Moreover, we adopt a two-phase sampling strategy that improves precision and sample diversity by combining Langevin dynamics with resampling and density-aware re-weighting. Experimental results on dual-arm manipulation tasks show that ADCS significantly improves sample diversity and generalization across settings demanding precise coordination and adaptive constraint handling.

arxiv情報

著者 Haolei Tong,Yuezhe Zhang,Sophie Lueth,Georgia Chalvatzaki
発行日 2025-05-21 09:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adaptive Diffusion Constrained Sampling for Bimanual Robot Manipulation はコメントを受け付けていません

RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation

要約

複雑な3D環境のマッピングと理解は、自律システムが物理的世界とどのように知覚し、相互作用するかの基本であり、正確な幾何学的再構成と豊富な意味的理解の両方を必要とします。
既存の3Dセマンティックマッピングシステムは、事前に定義されたオブジェクトインスタンスの再構築と識別に優れていますが、オンライン操作中にオープンボキャブラリーでセマンティックマップを効率的に構築する柔軟性がありません。
最近のビジョン言語モデルでは、2D画像でのオープンボキャブラリーオブジェクトの認識が可能になりましたが、3D空間理解へのギャップをまだ埋めていません。
重要な課題は、セマンティックの一貫性を維持し、リアルタイムで自然言語の相互作用をサポートしながら、正確な3Dマップを同時に構築できるトレーニングなしの統一システムを開発することにあります。
このホワイトペーパーでは、GPUにアクセスした幾何学的再構築を、空間インデックスとの階層的オブジェクト関連に導かれたオンラインインスタンスレベルのセマンティックエンミングフュージョンを通じて、GPUにアクセラレーションされた幾何学的再構成をオープンボキャブラリービジョン言語モデルとシームレスに統合することを開発します。
当社のトレーニングフリーシステムは、増分処理と統一された幾何セマンチックな更新を通じて優れたパフォーマンスを実現し、2Dセグメンテーションの矛盾を堅牢に処理します。
提案されている汎用3Dシーン理解フレームワークは、ゼロショット3Dインスタンス検索、セグメンテーション、オブジェクト検出など、以前に見えなかったオブジェクトについての理由と自然言語のクエリを解釈するなど、さまざまなタスクに使用できます。
プロジェクトページは、https://razer-3d.github.ioで入手できます。

要約(オリジナル)

Mapping and understanding complex 3D environments is fundamental to how autonomous systems perceive and interact with the physical world, requiring both precise geometric reconstruction and rich semantic comprehension. While existing 3D semantic mapping systems excel at reconstructing and identifying predefined object instances, they lack the flexibility to efficiently build semantic maps with open-vocabulary during online operation. Although recent vision-language models have enabled open-vocabulary object recognition in 2D images, they haven’t yet bridged the gap to 3D spatial understanding. The critical challenge lies in developing a training-free unified system that can simultaneously construct accurate 3D maps while maintaining semantic consistency and supporting natural language interactions in real time. In this paper, we develop a zero-shot framework that seamlessly integrates GPU-accelerated geometric reconstruction with open-vocabulary vision-language models through online instance-level semantic embedding fusion, guided by hierarchical object association with spatial indexing. Our training-free system achieves superior performance through incremental processing and unified geometric-semantic updates, while robustly handling 2D segmentation inconsistencies. The proposed general-purpose 3D scene understanding framework can be used for various tasks including zero-shot 3D instance retrieval, segmentation, and object detection to reason about previously unseen objects and interpret natural language queries. The project page is available at https://razer-3d.github.io.

arxiv情報

著者 Naman Patel,Prashanth Krishnamurthy,Farshad Khorrami
発行日 2025-05-21 11:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation はコメントを受け付けていません

ABPT: Amended Backpropagation through Time with Partially Differentiable Rewards

要約

四肢装置制御ポリシーは、報酬の正確な勾配を使用して高性能でトレーニングすることができ、バックプロパゲーションスルータイム(BPTT)を介してポリシーパラメーターを直接最適化できます。
ただし、完全に微分可能な報酬アーキテクチャを設計することは、しばしば困難です。
部分的に微分可能な報酬は、トレーニングのパフォーマンスを低下させる偏った勾配伝播をもたらします。
この制限を克服するために、BPTTのトレーニング効率を維持しながら勾配バイアスを軽減する新しいアプローチである、修正されたバックプロパゲーションスルータイム(ABPT)を提案します。
ABPTは0ステップとNステップのリターンを組み合わせて、学習したQ値関数から値勾配を活用することにより、バイアスを効果的に削減します。
さらに、トレーニング中の探査を促進するために、エントロピーの正規化と状態初期化メカニズムを採用しています。
現実世界とシミュレーションの両方で、4つの代表的な四輪飛行タスク\ li {でABPTを評価します。
実験結果は、ABPTが既存の学習アルゴリズムよりも大幅に速く収束し、既存の学習アルゴリズムよりも高い究極の報酬を達成することを示しています。
コードはhttp://github.com/fanxing-li/abptでリリースされます。

要約(オリジナル)

Quadrotor control policies can be trained with high performance using the exact gradients of the rewards to directly optimize policy parameters via backpropagation-through-time (BPTT). However, designing a fully differentiable reward architecture is often challenging. Partially differentiable rewards will result in biased gradient propagation that degrades training performance. To overcome this limitation, we propose Amended Backpropagation-through-Time (ABPT), a novel approach that mitigates gradient bias while preserving the training efficiency of BPTT. ABPT combines 0-step and N-step returns, effectively reducing the bias by leveraging value gradients from the learned Q-value function. Additionally, it adopts entropy regularization and state initialization mechanisms to encourage exploration during training. We evaluate ABPT on four representative quadrotor flight tasks \li{in both real world and simulation}. Experimental results demonstrate that ABPT converges significantly faster and achieves higher ultimate rewards than existing learning algorithms, particularly in tasks involving partially differentiable rewards. The code will be released at http://github.com/Fanxing-LI/ABPT.

arxiv情報

著者 Fanxing Li,Fangyu Sun,Tianbao Zhang,Danping Zou
発行日 2025-05-21 11:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | ABPT: Amended Backpropagation through Time with Partially Differentiable Rewards はコメントを受け付けていません

Evaluation of Mobile Environment for Vehicular Visible Light Communication Using Multiple LEDs and Event Cameras

要約

Advanced Driver Assistance Systems(ADAS)および自律運転(AD)の分野では、車両の周囲の環境を感知するための「目」として機能するセンサーが不可欠です。
伝統的に、イメージセンサーとライダーはこの役割を果たしてきました。
ただし、新しいタイプのビジョンセンサーであるイベントカメラが最近注目を集めています。
イベントカメラは、周囲の環境の変化(モーションなど)に反応し、モーションブラーに対して強い堅牢性を示し、ロボット工学アプリケーションで望ましい高ダイナミックレンジ環境でうまく機能します。
さらに、データ収集の非同期および低遅延の原則により、イベントカメラは光学通信に適しています。
イベントカメラに通信機能を追加することにより、I2V通信を利用して、前方衝突、突然のブレーキ、道路状況に関する情報をすぐに共有し、それによってハザード回避に貢献することが可能になります。
さらに、信号のタイミングやトラフィックボリュームなどの情報を受け取ると、速度調整と最適なルート選択が可能になり、より効率的な運転が促進されます。
この研究では、イベントカメラがレシーバーであり、複数のLEDが送信機である車両の可視光コミュニケーションシステムを構築します。
運転シーンでは、システムは送信機の位置を追跡し、ウォルシュハダマードコードに基づいてパイロットシーケンスを使用して、密に詰め込まれたLED光源を分離します。
その結果、屋外車両の実験は、送信機と受信機の距離が40メートル以内で、車両の走行速度が30 km/h(8.3 m/s)であった条件下でのエラーのない通信を示しています。

要約(オリジナル)

In the fields of Advanced Driver Assistance Systems (ADAS) and Autonomous Driving (AD), sensors that serve as the “eyes” for sensing the vehicle’s surrounding environment are essential. Traditionally, image sensors and LiDAR have played this role. However, a new type of vision sensor, event cameras, has recently attracted attention. Event cameras respond to changes in the surrounding environment (e.g., motion), exhibit strong robustness against motion blur, and perform well in high dynamic range environments, which are desirable in robotics applications. Furthermore, the asynchronous and low-latency principles of data acquisition make event cameras suitable for optical communication. By adding communication functionality to event cameras, it becomes possible to utilize I2V communication to immediately share information about forward collisions, sudden braking, and road conditions, thereby contributing to hazard avoidance. Additionally, receiving information such as signal timing and traffic volume enables speed adjustment and optimal route selection, facilitating more efficient driving. In this study, we construct a vehicle visible light communication system where event cameras are receivers, and multiple LEDs are transmitters. In driving scenes, the system tracks the transmitter positions and separates densely packed LED light sources using pilot sequences based on Walsh-Hadamard codes. As a result, outdoor vehicle experiments demonstrate error-free communication under conditions where the transmitter-receiver distance was within 40 meters and the vehicle’s driving speed was 30 km/h (8.3 m/s).

arxiv情報

著者 Ryota Soga,Shintaro Shiba,Quan Kong,Norimasa Kobori,Tsukasa Shimizu,Shan Lu,Takaya Yamazato
発行日 2025-05-21 11:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.NI, cs.RO, math.IT | Evaluation of Mobile Environment for Vehicular Visible Light Communication Using Multiple LEDs and Event Cameras はコメントを受け付けていません

Guided Policy Optimization under Partial Observability

要約

部分的に観察可能な環境での強化学習(RL)は、不確実性の下での学習の複雑さのために大きな課題をもたらします。
シミュレーションで利用できるような追加情報は、トレーニングを強化することができ、それを効果的に活用することができます。
これに対処するために、ガイダーと学習者を共同訓練するフレームワークであるGuided Policy Optimization(GPO)を紹介します。
ガイドは、主に模倣学習を通じて訓練されている学習者のポリシーとの整合を確保しながら、特権情報を利用しています。
この学習スキームは、直接RLに匹敵する最適性を達成し、既存のアプローチに固有の重要な制限を克服することを理論的に実証しています。
経験的評価は、部分的な観察性とノイズを伴う継続的な制御、メモリベースの課題を含む、既存の方法を大幅に上回るなど、さまざまなタスクにわたるGPOの強力なパフォーマンスを示しています。

要約(オリジナル)

Reinforcement Learning (RL) in partially observable environments poses significant challenges due to the complexity of learning under uncertainty. While additional information, such as that available in simulations, can enhance training, effectively leveraging it remains an open problem. To address this, we introduce Guided Policy Optimization (GPO), a framework that co-trains a guider and a learner. The guider takes advantage of privileged information while ensuring alignment with the learner’s policy that is primarily trained via imitation learning. We theoretically demonstrate that this learning scheme achieves optimality comparable to direct RL, thereby overcoming key limitations inherent in existing approaches. Empirical evaluations show strong performance of GPO across various tasks, including continuous control with partial observability and noise, and memory-based challenges, significantly outperforming existing methods.

arxiv情報

著者 Yueheng Li,Guangming Xie,Zongqing Lu
発行日 2025-05-21 12:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Guided Policy Optimization under Partial Observability はコメントを受け付けていません

DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting

要約

この作業は、予測アップデートフィルタリングを介して、マルチビューRGB画像とグリッパー状態情報から変形可能な線形オブジェクト(DLO)の3D形状を推定するためのアルゴリズムであるDLO-Splattingを示しています。
DLO-Splattingアルゴリズムは、形状の滑らかさと剛性減衰補正を備えた位置ベースのダイナミクスモデルを使用して、オブジェクトの形状を予測します。
3Dガウスのスプラッティングベースのレンダリング損失を使用した最適化は、更新ステップの視覚的観測と整列する予測を繰り返しレンダリングし、改良します。
初期の実験は、既存の視覚のみの方法で困難な結び目を結ぶシナリオで有望な結果を示しています。

要約(オリジナル)

This work presents DLO-Splatting, an algorithm for estimating the 3D shape of Deformable Linear Objects (DLOs) from multi-view RGB images and gripper state information through prediction-update filtering. The DLO-Splatting algorithm uses a position-based dynamics model with shape smoothness and rigidity dampening corrections to predict the object shape. Optimization with a 3D Gaussian Splatting-based rendering loss iteratively renders and refines the prediction to align it with the visual observations in the update step. Initial experiments demonstrate promising results in a knot tying scenario, which is challenging for existing vision-only methods.

arxiv情報

著者 Holly Dinkel,Marcel Büsching,Alberta Longhini,Brian Coltin,Trey Smith,Danica Kragic,Mårten Björkman,Timothy Bretl
発行日 2025-05-21 12:32:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting はコメントを受け付けていません

OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation

要約

Vision-Language Navigation(VLN)は、言語の指示と視覚的な手がかりを活用して、具体化されたAIで極めて重要な役割を果たすことにより、エージェントをガイドすることを目的としています。
屋内VLNは広範囲に研究されていますが、屋外の空中VLNは未掘削装置のままです。
潜在的な理由は、屋外の空中ビューには広大なエリアが含まれ、データ収集がより困難になり、ベンチマークが不足していることです。
この問題に対処するために、さまざまなレンダリングエンジン、多用途のツールチェーン、および空中VLNの大規模なベンチマークであるOpenFlyを提案します。
まず、Unreal Engine、GTA V、Google Earth、3D Gaussian Splatting(3D GS)など、環境シミュレーション用の多様なレンダリングエンジンと高度な技術を統合します。
特に、3D GSはリアルからシムのレンダリングをサポートし、環境のリアリズムをさらに強化します。
第二に、空中VLNデータ収集、合理化されたポイントクラウドの取得、シーンセマンティックセグメンテーション、飛行軌跡の作成、および命令生成用の高度に自動化されたツールチェーンを開発します。
第三に、ツールチェーンに基づいて、100kの軌跡を備えた大規模な空中VLNデータセットを構築し、18シーンの多様な高さと長さをカバーします。
さらに、飛行中の重要な観測を強調するキーフレーム認識VLNモデルであるOpenFly-Agentを提案します。
ベンチマークのために、広範な実験と分析が行われ、最近のいくつかのVLNメソッドを評価し、OpenFlyプラットフォームとエージェントの優位性を示します。
ツールチェーン、データセット、およびコードはオープンソースをかけます。

要約(オリジナル)

Vision-Language Navigation (VLN) aims to guide agents by leveraging language instructions and visual cues, playing a pivotal role in embodied AI. Indoor VLN has been extensively studied, whereas outdoor aerial VLN remains underexplored. The potential reason is that outdoor aerial view encompasses vast areas, making data collection more challenging, which results in a lack of benchmarks. To address this problem, we propose OpenFly, a platform comprising various rendering engines, a versatile toolchain, and a large-scale benchmark for aerial VLN. Firstly, we integrate diverse rendering engines and advanced techniques for environment simulation, including Unreal Engine, GTA V, Google Earth, and 3D Gaussian Splatting (3D GS). Particularly, 3D GS supports real-to-sim rendering, further enhancing the realism of our environments. Secondly, we develop a highly automated toolchain for aerial VLN data collection, streamlining point cloud acquisition, scene semantic segmentation, flight trajectory creation, and instruction generation. Thirdly, based on the toolchain, we construct a large-scale aerial VLN dataset with 100k trajectories, covering diverse heights and lengths across 18 scenes. Moreover, we propose OpenFly-Agent, a keyframe-aware VLN model emphasizing key observations during flight. For benchmarking, extensive experiments and analyses are conducted, evaluating several recent VLN methods and showcasing the superiority of our OpenFly platform and agent. The toolchain, dataset, and codes will be open-sourced.

arxiv情報

著者 Yunpeng Gao,Chenhui Li,Zhongrui You,Junli Liu,Zhen Li,Pengan Chen,Qizhi Chen,Zhonghan Tang,Liansheng Wang,Penghui Yang,Yiwen Tang,Yuhang Tang,Shuai Liang,Songyi Zhu,Ziqin Xiong,Yifei Su,Xinyi Ye,Jianan Li,Yan Ding,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li
発行日 2025-05-21 12:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation はコメントを受け付けていません

Synthetic Enclosed Echoes: A New Dataset to Mitigate the Gap Between Simulated and Real-World Sonar Data

要約

このペーパーでは、水中環境でロボット認識と3D再構成機能を強化するために設計された新しいデータセットである合成密閉エコー(参照)を紹介します。
参照を参照して、実世界のソナーデータの小さなサブセットによって補完された高忠実度の合成ソナーデータを含む。
柔軟なデータ収集を容易にするために、シミュレートされた環境が開発され、新しい構造やイメージングソナー構成などの変更を通じて追加データの生成が可能になりました。
このハイブリッドアプローチは、容易に利用可能なグラウンドトゥルースや多様なデータセットを生成する能力を含む合成データの利点を活用し、同様の環境で取得した実際のデータとシミュレーション間ギャップを埋めます。
SEE SEEデータセットは、数学ベースのソナーアプローチや深い学習アルゴリズムなど、音響データベースの方法を包括的に評価します。
これらの手法は、データセットを検証するために採用され、水中3D再構成に対する適合性を確認しました。
さらに、このペーパーでは、最先端のアルゴリズムに対する新しい変更を提案し、既存の方法と比較してパフォーマンスの向上を示しています。
SEEデータセットにより、現実的なシナリオでアコースティックデータベースの方法の評価を可能にするため、実際の水中アプリケーションの実現可能性が向上します。

要約(オリジナル)

This paper introduces Synthetic Enclosed Echoes (SEE), a novel dataset designed to enhance robot perception and 3D reconstruction capabilities in underwater environments. SEE comprises high-fidelity synthetic sonar data, complemented by a smaller subset of real-world sonar data. To facilitate flexible data acquisition, a simulated environment has been developed, enabling the generation of additional data through modifications such as the inclusion of new structures or imaging sonar configurations. This hybrid approach leverages the advantages of synthetic data, including readily available ground truth and the ability to generate diverse datasets, while bridging the simulation-to-reality gap with real-world data acquired in a similar environment. The SEE dataset comprehensively evaluates acoustic data-based methods, including mathematics-based sonar approaches and deep learning algorithms. These techniques were employed to validate the dataset, confirming its suitability for underwater 3D reconstruction. Furthermore, this paper proposes a novel modification to a state-of-the-art algorithm, demonstrating improved performance compared to existing methods. The SEE dataset enables the evaluation of acoustic data-based methods in realistic scenarios, thereby improving their feasibility for real-world underwater applications.

arxiv情報

著者 Guilherme de Oliveira,Matheus M. dos Santos,Paulo L. J. Drews-Jr
発行日 2025-05-21 12:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Synthetic Enclosed Echoes: A New Dataset to Mitigate the Gap Between Simulated and Real-World Sonar Data はコメントを受け付けていません