LMRPA: Large Language Model-Driven Efficient Robotic Process Automation for OCR

要約

このペーパーでは、光学文字認識(OCR)タスクの効率と速度を大幅に改善するように設計された、新しい大規模なモデル駆動型ロボットプロセス自動化(RPA)モデルであるLMRPAを紹介します。
従来のRPAプラットフォームは、OCRのような大量の繰り返しプロセスを処理する際にパフォーマンスのボトルネックに悩まされることが多く、より効率的で時間のかかるプロセスにつながります。
LMRPAは、大規模な言語モデル(LLMS)の統合を可能にし、抽出されたテキストの精度と読みやすさを改善し、曖昧な文字と複雑なテキスト構造によってもたらされる課題を克服しました。
結果は、LMRPAが優れたパフォーマンスを達成し、処理時間を最大52 \%削減します。
たとえば、Tesseract OCRタスクのバッチ2では、LMRPAは9.8秒でプロセスを完了し、Uipathは18.1秒で終了し、自動化は18.7秒で終了しました。
同様の改善が教義で観察されました。そこでは、LMRPAが12.7秒でタスクを完了することで同じプロセスを実行する他の自動化ツールを上回り、競合他社は同じことをするのに20秒以上かかりました。
これらの調査結果は、LMRPAがOCR駆動型の自動化プロセスに革命をもたらす可能性を強調し、既存の最先端のRPAモデルに対してより効率的で効果的な代替ソリューションを提供します。

要約(オリジナル)

This paper introduces LMRPA, a novel Large Model-Driven Robotic Process Automation (RPA) model designed to greatly improve the efficiency and speed of Optical Character Recognition (OCR) tasks. Traditional RPA platforms often suffer from performance bottlenecks when handling high-volume repetitive processes like OCR, leading to a less efficient and more time-consuming process. LMRPA allows the integration of Large Language Models (LLMs) to improve the accuracy and readability of extracted text, overcoming the challenges posed by ambiguous characters and complex text structures.Extensive benchmarks were conducted comparing LMRPA to leading RPA platforms, including UiPath and Automation Anywhere, using OCR engines like Tesseract and DocTR. The results are that LMRPA achieves superior performance, cutting the processing times by up to 52\%. For instance, in Batch 2 of the Tesseract OCR task, LMRPA completed the process in 9.8 seconds, where UiPath finished in 18.1 seconds and Automation Anywhere finished in 18.7 seconds. Similar improvements were observed with DocTR, where LMRPA outperformed other automation tools conducting the same process by completing tasks in 12.7 seconds, while competitors took over 20 seconds to do the same. These findings highlight the potential of LMRPA to revolutionize OCR-driven automation processes, offering a more efficient and effective alternative solution to the existing state-of-the-art RPA models.

arxiv情報

著者 Osama Hosam Abdellaif,Abdelrahman Nader,Ali Hamdi
発行日 2025-06-10 09:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DL, cs.HC, cs.RO, cs.SE | LMRPA: Large Language Model-Driven Efficient Robotic Process Automation for OCR はコメントを受け付けていません

Modular Recurrence in Contextual MDPs for Universal Morphology Control

要約

ロボットの形態のユニバーサルコントローラーは、計算効率とデータ効率を大幅に改善します。
個々のロボットの特性に関するコンテキスト情報を利用し、深い補強学習エージェントのアーキテクチャでモジュラー構造を活用することにより、マルチロボット制御に向けてステップがなされました。
しかし、目に見えない新しいロボットへの一般化は依然として課題です。
この論文では、関連するコンテキスト情報は部分的に観察可能であるが、トレーニング中に見られないコンテキストへのより良い一般化のために相互作用を通じて推測できると仮定します。
この程度まで、モジュール式再発アーキテクチャを実装し、ムホコロロボットの大規模なセットでその一般化パフォーマンスを評価します。
結果は、4つの異なる環境で、目に見えないダイナミクス、運動学、およびトポロジを備えたロボットのパフォーマンスが大幅に向上したことを示しています。

要約(オリジナル)

A universal controller for any robot morphology would greatly improve computational and data efficiency. By utilizing contextual information about the properties of individual robots and exploiting their modular structure in the architecture of deep reinforcement learning agents, steps have been made towards multi-robot control. Generalization to new, unseen robots, however, remains a challenge. In this paper we hypothesize that the relevant contextual information is partially observable, but that it can be inferred through interactions for better generalization to contexts that are not seen during training. To this extent, we implement a modular recurrent architecture and evaluate its generalization performance on a large set of MuJoCo robots. The results show a substantial improved performance on robots with unseen dynamics, kinematics, and topologies, in four different environments.

arxiv情報

著者 Laurens Engwegen,Daan Brinks,Wendelin Böhmer
発行日 2025-06-10 09:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Modular Recurrence in Contextual MDPs for Universal Morphology Control はコメントを受け付けていません

Deep Reinforcement Learning-Based Motion Planning and PDE Control for Flexible Manipulators

要約

この記事では、柔軟なロボットマニピュレーターのモーションプランニングおよび制御フレームワークを紹介し、ディープ補強学習(DRL)を非線形部分微分方程式(PDE)コントローラーと統合します。
制御のみに焦点を当てた従来のアプローチとは異なり、目的の軌道がエンドポイントの振動に大きく影響することを実証します。
これに対処するために、Soft Actor-Critic(SAC)アルゴリズムを使用して訓練されたDRLモーションプランナーは、振動を本質的に最小限に抑える最適化された軌跡を生成します。
PDE非線形コントローラーは、リアプノフ分析を使用して閉ループの安定性を確保しながら、計画された軌道を追跡するために必要なトルクを計算します。
提案された方法論は、シミュレーションと実際の実験の両方を通じて検証され、従来の方法と比較して優れた振動抑制と追跡精度を示しています。
結果は、柔軟なロボットマニピュレーターの精度と安定性を高めるための学習ベースのモーション計画とモデルベースの制御を組み合わせる可能性を強調しています。

要約(オリジナル)

This article presents a motion planning and control framework for flexible robotic manipulators, integrating deep reinforcement learning (DRL) with a nonlinear partial differential equation (PDE) controller. Unlike conventional approaches that focus solely on control, we demonstrate that the desired trajectory significantly influences endpoint vibrations. To address this, a DRL motion planner, trained using the soft actor-critic (SAC) algorithm, generates optimized trajectories that inherently minimize vibrations. The PDE nonlinear controller then computes the required torques to track the planned trajectory while ensuring closed-loop stability using Lyapunov analysis. The proposed methodology is validated through both simulations and real-world experiments, demonstrating superior vibration suppression and tracking accuracy compared to traditional methods. The results underscore the potential of combining learning-based motion planning with model-based control for enhancing the precision and stability of flexible robotic manipulators.

arxiv情報

著者 Amir Hossein Barjini,Seyed Adel Alizadeh Kolagar,Sadeq Yaqubi,Jouni Mattila
発行日 2025-06-10 09:53:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math-ph, math.MP | Deep Reinforcement Learning-Based Motion Planning and PDE Control for Flexible Manipulators はコメントを受け付けていません

Interior Point Differential Dynamic Programming, Redux

要約

非線形制約を備えた離散時間、有限層最適制御問題(OCP)を解くための構造抽出アルゴリズムであるIPDDP2を提示します。
不等式の制約は、原始二重の内部ポイントの定式化を使用して処理され、平等制約のステップ受け入れはライン検索フィルターアプローチに従います。
アルゴリズムの反復は、微分動的プログラミング(DDP)フレームワークの下で導出されます。
IPDDP2反復液の局所的な2次収束の証明が提供されます。
私たちの数値実験は、5つの異なるクラスのロボットモーション計画の問題に由来する500を超えるOCPでIPDDP2を評価します。
IPDDP2は、接触型計画のための既存の制約付きDDPアルゴリズムに対する堅牢性の改善を示し、汎用ソルバーIPOPTよりも大幅に高速です。
Juliaプログラミング言語でIPDDP2の完全な実装を提供します。

要約(オリジナル)

We present IPDDP2, a structure-exploiting algorithm for solving discrete-time, finite-horizon optimal control problems (OCPs) with nonlinear constraints. Inequality constraints are handled using a primal-dual interior point formulation and step acceptance for equality constraints follows a line-search filter approach. The iterates of the algorithm are derived under the Differential Dynamic Programming (DDP) framework. A proof of local quadratic convergence of the IPDDP2 iterates is provided. Our numerical experiments evaluate IPDDP2 on over 500 OCPs derived from five different classes of robotic motion planning problems, three of which are contact-implicit trajectory optimisation problems. IPDDP2 demonstrates improvements in robustness against existing constrained DDP algorithms for contact-implicit planning, while being significantly faster than general-purpose solver IPOPT. We provide a full implementation of IPDDP2 in the Julia programming language.

arxiv情報

著者 Ming Xu,Stephen Gould,Iman Shames
発行日 2025-06-10 09:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Interior Point Differential Dynamic Programming, Redux はコメントを受け付けていません

DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration

要約

模倣学習はロボット操作に大きな約束を示していますが、ポリシーの実行は、一般的に人間のオペレーターによって収集された遅刻のデモのために、しばしば不十分に遅くなります。
この作業では、エントロピー誘導デモンストレーションの加速を介して視覚運動政策の実行を加速するための自己監視方法であるDemospeedupを提示します。
Demospeedupは、通常のスピードデモンストレーションに関するarbitrary意的な生成ポリシー(ACTまたは拡散ポリシーなど)のトレーニングから始まります。これは、フレームごとのアクションエントロピー推定器として機能します。
重要な洞察は、より低いアクションエントロピー推定のフレームが、より一貫したポリシー行動を必要とすることです。
対照的に、より高いエントロピー推定値を持つフレームは、よりカジュアルなセクションに対応するため、より安全に加速することができます。
したがって、推定されたエントロピーに従って元のデモをセグメント化し、エントロピー値とともに増加する速度でダウンサンプリングすることにより、それらを加速します。
スピードアップデモンストレーションでトレーニングされた結果、結果のポリシーは、タスクの完了パフォーマンスを維持しながら、最大3倍高速で実行されます。
興味深いことに、これらのポリシーは、意思決定の地平線が減少することの利点により、通常の速度デモンストレーションで訓練されたポリシーよりも高い成功率を達成することさえできます。
プロジェクトページ:https://demospeedup.github.io/

要約(オリジナル)

Imitation learning has shown great promise in robotic manipulation, but the policy’s execution is often unsatisfactorily slow due to commonly tardy demonstrations collected by human operators. In this work, we present DemoSpeedup, a self-supervised method to accelerate visuomotor policy execution via entropy-guided demonstration acceleration. DemoSpeedup starts from training an arbitrary generative policy (e.g., ACT or Diffusion Policy) on normal-speed demonstrations, which serves as a per-frame action entropy estimator. The key insight is that frames with lower action entropy estimates call for more consistent policy behaviors, which often indicate the demands for higher-precision operations. In contrast, frames with higher entropy estimates correspond to more casual sections, and therefore can be more safely accelerated. Thus, we segment the original demonstrations according to the estimated entropy, and accelerate them by down-sampling at rates that increase with the entropy values. Trained with the speedup demonstrations, the resulting policies execute up to 3 times faster while maintaining the task completion performance. Interestingly, these policies could even achieve higher success rates than those trained with normal-speed demonstrations, due to the benefits of reduced decision-making horizons. Project Page: https://demospeedup.github.io/

arxiv情報

著者 Lingxiao Guo,Zhengrong Xue,Zijing Xu,Huazhe Xu
発行日 2025-06-10 10:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration はコメントを受け付けていません

ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel

要約

ロボットシステムがますます複雑になり、不均一で、安全性が高くなるにつれて、構造化された開発方法論の必要性が最も重要になります。
ロボットオペレーティングシステム(ROS)やモデルベースのシステムエンジニアリング(MBSE)などのフレームワークは、基礎ツールを提供しますが、一緒に使用すると統合が不足していることがよくあります。
このペーパーでは、ROSベースのシステムに合わせて調整されたMerosメタモデルSYSMLベースのモデリング言語と広く認識されているVモデル開発パラダイムを整列させることにより、そのギャップに対処します。
ROS中心のモデリングをシステムエンジニアリングの実践に橋渡しするドメイン固有の方法論を提案します。
私たちのアプローチは、Merosを使用してロボットシステムの構造、動作、および検証プロセスを形式化し、ROSとROS 2の両方と互換性のある一般化された適応可能なVモデルで拡張します。固定手順を処方するのではなく、このアプローチはプロジェクト固有の柔軟性と再利用をサポートし、開発のすべての段階にわたってガイダンスを提供します。
このアプローチは、マニピュレーター、モバイルユニット、動的テスト環境で構成される異種のマルチロボットプラットフォームであるHerosに関する包括的なケーススタディを通じて検証されます。
この例は、Meros互換のVモデルが、将来の適応のためにアクセスしやすく拡張可能なままでありながら、トレーサビリティとシステムの一貫性をどのように強化するかを示しています。
この作業は、ROSベースのプロジェクトでMBSEプラクティスを適用しようとしている開発者と研究者のための構造化されたツールに依存しない基盤に貢献しています。

要約(オリジナル)

As robotic systems grow increasingly complex, heterogeneous, and safety-critical, the need for structured development methodologies becomes paramount. Although frameworks like the Robot Operating System (ROS) and Model-Based Systems Engineering (MBSE) offer foundational tools, they often lack integration when used together. This paper addresses that gap by aligning the widely recognized V-model development paradigm with the MeROS metamodel SysML-based modeling language tailored for ROS-based systems. We propose a domain-specific methodology that bridges ROS-centric modelling with systems engineering practices. Our approach formalises the structure, behaviour, and validation processes of robotic systems using MeROS, while extending it with a generalized, adaptable V-model compatible with both ROS and ROS 2. Rather than prescribing a fixed procedure, the approach supports project-specific flexibility and reuse, offering guidance across all stages of development. The approach is validated through a comprehensive case study on HeROS, a heterogeneous multi-robot platform comprising manipulators, mobile units, and dynamic test environments. This example illustrates how the MeROS-compatible V-model enhances traceability and system consistency while remaining accessible and extensible for future adaptation. The work contributes a structured, tool-agnostic foundation for developers and researchers seeking to apply MBSE practices in ROS-based projects.

arxiv情報

著者 Tomasz Winiarski,Jan Kaniuka,Daniel Giełdowski,Jakub Ostrysz,Krystian Radlak,Dmytro Kushnir
発行日 2025-06-10 11:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel はコメントを受け付けていません

PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly

要約

ビジョン言語モデル(VLM)は、具体化されたエージェントの推論と計画において有望な能力を実証していますが、特に構造化された3D環境内で物理現象を理解する能力は非常に限られたままです。
このギャップを埋めるために、ロボット3Dブロックアセンブリタスクを介して物理的理解と計画に関するVLMSを評価するために設計されたプログレッシブベンチマークであるPhyblockを紹介します。
Phyblockは、ターゲットを絞った視覚的質問(VQA)サンプルとともに、新しい4レベルの認知階層アセンブリタスクを統合します。
Phyblockには、2600のブロックタスク(400のアセンブリタスク、2200 VQAタスク)が含まれており、3つの重要な次元にわたってモデルを評価します。
21の最先端のVLMをベンチマークし、物理的に接地されたマルチステップ計画におけるその強みと制限を強調しています。
私たちの経験的調査結果は、VLMSのパフォーマンスが高レベルの計画と推論能力に顕著な制限を示し、タスクの複雑さの増大のパフォーマンスの顕著な低下につながることを示しています。
エラー分析により、空間方向と依存性推論の持続的な困難が明らかになります。
驚くべきことに、チェーンオブ考えのプロンプトは最小限の改善を提供し、空間的なタスクが直感的なモデルの理解に大きく依存していることを示唆しています。
Phyblockを統一されたテストベッドとして位置付け、具体化された推論を進め、視覚言語の理解と現実世界の身体的問題解決を埋めます。

要約(オリジナル)

While vision-language models (VLMs) have demonstrated promising capabilities in reasoning and planning for embodied agents, their ability to comprehend physical phenomena, particularly within structured 3D environments, remains severely limited. To close this gap, we introduce PhyBlock, a progressive benchmark designed to assess VLMs on physical understanding and planning through robotic 3D block assembly tasks. PhyBlock integrates a novel four-level cognitive hierarchy assembly task alongside targeted Visual Question Answering (VQA) samples, collectively aimed at evaluating progressive spatial reasoning and fundamental physical comprehension, including object properties, spatial relationships, and holistic scene understanding. PhyBlock includes 2600 block tasks (400 assembly tasks, 2200 VQA tasks) and evaluates models across three key dimensions: partial completion, failure diagnosis, and planning robustness. We benchmark 21 state-of-the-art VLMs, highlighting their strengths and limitations in physically grounded, multi-step planning. Our empirical findings indicate that the performance of VLMs exhibits pronounced limitations in high-level planning and reasoning capabilities, leading to a notable decline in performance for the growing complexity of the tasks. Error analysis reveals persistent difficulties in spatial orientation and dependency reasoning. Surprisingly, chain-of-thought prompting offers minimal improvements, suggesting spatial tasks heavily rely on intuitive model comprehension. We position PhyBlock as a unified testbed to advance embodied reasoning, bridging vision-language understanding and real-world physical problem-solving.

arxiv情報

著者 Liang Ma,Jiajun Wen,Min Lin,Rongtao Xu,Xiwen Liang,Bingqian Lin,Jun Ma,Yongxin Wang,Ziming Wei,Haokun Lin,Mingfei Han,Meng Cao,Bokui Chen,Ivan Laptev,Xiaodan Liang
発行日 2025-06-10 11:46:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly はコメントを受け付けていません

Efficient Learning of Vehicle Controller Parameters via Multi-Fidelity Bayesian Optimization: From Simulation to Experiment

要約

車両コントローラーのパラメーターチューニングは、自動車開発における費用と時間のかかる課題のままです。
従来のアプローチは、広範な現実世界のテストに依存しており、プロセスを非効率的にしています。
低忠実度のシミュレーションデータと非常に限られた数の実際の実験の両方を活用することにより、最適なコントローラーパラメーターを効率的に学習する多分ベイジアン最適化アプローチを提案します。
私たちのアプローチは、業界で使用される標準の2段階開発ワークフローを維持しながら、手動の調整と高価なフィールドテストの必要性を大幅に削減します。
コアの貢献は、自動回帰的多分ガウスプロセスモデルをベイズの最適化に統合し、実際のテスト中に追加の低忠実度評価を必要とせずに、異なる忠実度レベル間の知識移転を可能にすることです。
シミュレーション研究とRealWorld実験の両方を通じてアプローチを検証します。
結果は、この方法が非常に少ない実世界の実験で高品質のコントローラーのパフォーマンスを達成し、産業用途でのインテリジェントな車両制御チューニングのための実用的でスケーラブルなソリューションとしての可能性を強調していることを示しています。

要約(オリジナル)

Parameter tuning for vehicle controllers remains a costly and time-intensive challenge in automotive development. Traditional approaches rely on extensive real-world testing, making the process inefficient. We propose a multi-fidelity Bayesian optimization approach that efficiently learns optimal controller parameters by leveraging both low-fidelity simulation data and a very limited number of real-world experiments. Our approach significantly reduces the need for manual tuning and expensive field testing while maintaining the standard two-stage development workflow used in industry. The core contribution is the integration of an auto-regressive multi-fidelity Gaussian process model into Bayesian optimization, enabling knowledge transfer between different fidelity levels without requiring additional low-fidelity evaluations during real-world testing. We validate our approach through both simulation studies and realworld experiments. The results demonstrate that our method achieves high-quality controller performance with only very few real-world experiments, highlighting its potential as a practical and scalable solution for intelligent vehicle control tuning in industrial applications.

arxiv情報

著者 Yongpeng Zhao,Maik Pfefferkorn,Maximilian Templer,Rolf Findeisen
発行日 2025-06-10 12:11:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Efficient Learning of Vehicle Controller Parameters via Multi-Fidelity Bayesian Optimization: From Simulation to Experiment はコメントを受け付けていません

Bayesian Inverse Physics for Neuro-Symbolic Robot Learning

要約

自律的な探査から支援技術まで、現実世界のロボットアプリケーションには、適応性、解釈可能、およびデータ効率の良い学習パラダイムが必要です。
ディープラーニングアーキテクチャと基礎モデルは、多様なロボットアプリケーションの大幅な進歩を促進していますが、未知の動的環境で効率的かつ確実に動作する能力が限られたままです。
このポジションペーパーでは、これらの制限を批判的に評価し、データ駆動型の学習を意図的で構造化された推論と組み合わせるための概念的なフレームワークを導入します。
具体的には、効率的な世界モデリングのための微分可能な物理学を活用し、不確実性を認識した意思決定のためのベイジアン推論、および新しいタスクへの迅速な適応のためのメタ学習を提案します。
ニューラルモデルに物理的な象徴的な推論を埋め込むことにより、ロボットはトレーニングデータを超えて一般化し、新しい状況に関する理由を一般化し、知識を継続的に拡大することができます。
このようなハイブリッドニューロシンボリックアーキテクチャは、次世代の自律システムにとって不可欠であると主張し、この目的のために、それらの開発を導き、加速するための研究ロードマップを提供します。

要約(オリジナル)

Real-world robotic applications, from autonomous exploration to assistive technologies, require adaptive, interpretable, and data-efficient learning paradigms. While deep learning architectures and foundation models have driven significant advances in diverse robotic applications, they remain limited in their ability to operate efficiently and reliably in unknown and dynamic environments. In this position paper, we critically assess these limitations and introduce a conceptual framework for combining data-driven learning with deliberate, structured reasoning. Specifically, we propose leveraging differentiable physics for efficient world modeling, Bayesian inference for uncertainty-aware decision-making, and meta-learning for rapid adaptation to new tasks. By embedding physical symbolic reasoning within neural models, robots could generalize beyond their training data, reason about novel situations, and continuously expand their knowledge. We argue that such hybrid neuro-symbolic architectures are essential for the next generation of autonomous systems, and to this end, we provide a research roadmap to guide and accelerate their development.

arxiv情報

著者 Octavio Arriaga,Rebecca Adam,Melvin Laux,Lisa Gutzeit,Marco Ragni,Jan Peters,Frank Kirchner
発行日 2025-06-10 12:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Bayesian Inverse Physics for Neuro-Symbolic Robot Learning はコメントを受け付けていません

Enhancing Safety of Foundation Models for Visual Navigation through Collision Avoidance via Repulsive Estimation

要約

追加の範囲センサーを必要とせずに視覚ベースのナビゲーションの安全性を高めるプラグアンドプレイモジュールであるプラグアンドプレイモジュールであるケア(反発推定による衝突回避)を提案します。
RGB入力のみを使用した最近の基礎モデルは強力なパフォーマンスを示していますが、目に見えないオブジェクトまたはカメラパラメーター(例:視野、ポーズ、または焦点距離)のバリエーションを備えた分散(OOD)環境に一般化できないことがよくあります。
微調整がなければ、これらのモデルは衝突につながる危険な軌跡を生成する可能性があり、費用のかかるデータ収集と再訓練が必要です。
ケアは、ローカル軌道を出力するRGBベースのナビゲーションシステムとシームレスに統合し、単眼深度マップに由来する反発力ベクトルを使用して動的に調整することにより、この制限に対処します。
複数のロボットプラットフォームにまたがる最先端のビジョンベースのナビゲーションモデルと組み合わせることにより、ケアを評価します。
ケアは、目標を達成するパフォーマンスを犠牲にすることなく、一貫して衝突率(最大100%)を減らし、探索タスクで衝突のない移動距離を最大10.7倍改善します。

要約(オリジナル)

We propose CARE (Collision Avoidance via Repulsive Estimation), a plug-and-play module that enhances the safety of vision-based navigation without requiring additional range sensors or fine-tuning of pretrained models. While recent foundation models using only RGB inputs have shown strong performance, they often fail to generalize in out-of-distribution (OOD) environments with unseen objects or variations in camera parameters (e.g., field of view, pose, or focal length). Without fine-tuning, these models may generate unsafe trajectories that lead to collisions, requiring costly data collection and retraining. CARE addresses this limitation by seamlessly integrating with any RGB-based navigation system that outputs local trajectories, dynamically adjusting them using repulsive force vectors derived from monocular depth maps. We evaluate CARE by combining it with state-of-the-art vision-based navigation models across multiple robot platforms. CARE consistently reduces collision rates (up to 100%) without sacrificing goal-reaching performance and improves collision-free travel distance by up to 10.7x in exploration tasks.

arxiv情報

著者 Joonkyung Kim,Joonyeol Sim,Woojun Kim,Katia Sycara,Changjoo Nam
発行日 2025-06-10 13:15:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Enhancing Safety of Foundation Models for Visual Navigation through Collision Avoidance via Repulsive Estimation はコメントを受け付けていません