RobMOT: Robust 3D Multi-Object Tracking by Observational Noise and State Estimation Drift Mitigation on LiDAR PointCloud

要約

このペーパーでは、特に正当な軌跡を特定し、カルマンフィルターの状態推定ドリフトを削減する際に、3D追跡による検出方法の制限について説明します。
既存の方法では、したがって、しきい値ベースのフィルタリングを検出スコアに使用します。これは、遠くて閉塞されたオブジェクトで失敗する可能性があり、誤検知につながる可能性があります。
これに取り組むために、新しいトラックの有効性メカニズムとマルチステージ観測ゲーティングプロセスを提案し、ゴーストトラックを大幅に削減し、追跡パフォーマンスを向上させます。
この方法では、2番目の検出器を使用してKitti検証データセットでマルチオブジェクト追跡精度(MOTA)の29.47ドル\%$の改善を実現します。
さらに、洗練されたカルマンフィルター用語はローカリゼーションノイズを減らし、高次追跡精度(HOTA)を4.8 \%$を改善します。
オンラインフレームワークであるRobmotは、複数の検出器にわたって最先端のメソッドを上回り、Kittiテストデータセットで最大3.92 \%$のHOTA改善、検証データセットで$ 8.7 \%$を改善しながら、低いIDスチールスコアを達成します。
Robmotは、挑戦的なシナリオに優れており、遠くのオブジェクトと長期にわたる閉塞を追跡し、Waymo Open Datasetで1.77%\%$ Motaの改善を行い、単一のCPUで顕著な3221 FPSで動作し、リアルタイムのマルチオブジェクト追跡の効率を証明します。

要約(オリジナル)

This paper addresses limitations in 3D tracking-by-detection methods, particularly in identifying legitimate trajectories and reducing state estimation drift in Kalman filters. Existing methods often use threshold-based filtering for detection scores, which can fail for distant and occluded objects, leading to false positives. To tackle this, we propose a novel track validity mechanism and multi-stage observational gating process, significantly reducing ghost tracks and enhancing tracking performance. Our method achieves a $29.47\%$ improvement in Multi-Object Tracking Accuracy (MOTA) on the KITTI validation dataset with the Second detector. Additionally, a refined Kalman filter term reduces localization noise, improving higher-order tracking accuracy (HOTA) by $4.8\%$. The online framework, RobMOT, outperforms state-of-the-art methods across multiple detectors, with HOTA improvements of up to $3.92\%$ on the KITTI testing dataset and $8.7\%$ on the validation dataset, while achieving low identity switch scores. RobMOT excels in challenging scenarios, tracking distant objects and prolonged occlusions, with a $1.77\%$ MOTA improvement on the Waymo Open dataset, and operates at a remarkable 3221 FPS on a single CPU, proving its efficiency for real-time multi-object tracking.

arxiv情報

著者 Mohamed Nagy,Naoufel Werghi,Bilal Hassan,Jorge Dias,Majid Khonji
発行日 2025-05-01 05:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RobMOT: Robust 3D Multi-Object Tracking by Observational Noise and State Estimation Drift Mitigation on LiDAR PointCloud はコメントを受け付けていません

FedEMA: Federated Exponential Moving Averaging with Negative Entropy Regularizer in Autonomous Driving

要約

ストリートシーンのセマンティック理解(S3Uと呼ばれる)は、自律運転(AD)車両にとって重要だが複雑なタスクです。
それらの推論モデルは、通常、ドメインシフトのために不十分な一般化に直面しています。
Federated Learning(FL)は、プライバシーを提供する分散学習を通じてADモデルの一般化を強化するための有望なパラダイムとして浮上しています。
ただし、これらのFL ADモデルは、動的に進化する環境に展開された場合、継続的な適応が歴史的知識の急激な侵食を引き起こす場合に、重大な時間的壊滅的な忘却に直面しています。
このホワイトペーパーでは、連邦政府の指数移動平均(FEDEMA)を提案します。これは、2つの統合的な革新を通じてこの課題に対処する新しいフレームワークです。
(ii)EMAで導入された時間パターンへのFLモデルの過剰適合を防ぐための車両側の負のエントロピー正規化。
2つの戦略により、フェデマにモデルの一般化と適応性のバランスをとる二重客観的な最適化を強化します。
さらに、提案されたフェデマに対して理論的収束分析を実施します。
Cityscapes DatasetとCamvidデータセットの両方での広範な実験は、既存のアプローチに対するFedemaの優位性を示しており、7.12%の平均交差点(MIOU)を示しています。

要約(オリジナル)

Street Scene Semantic Understanding (denoted as S3U) is a crucial but complex task for autonomous driving (AD) vehicles. Their inference models typically face poor generalization due to domain-shift. Federated Learning (FL) has emerged as a promising paradigm for enhancing the generalization of AD models through privacy-preserving distributed learning. However, these FL AD models face significant temporal catastrophic forgetting when deployed in dynamically evolving environments, where continuous adaptation causes abrupt erosion of historical knowledge. This paper proposes Federated Exponential Moving Average (FedEMA), a novel framework that addresses this challenge through two integral innovations: (I) Server-side model’s historical fitting capability preservation via fusing current FL round’s aggregation model and a proposed previous FL round’s exponential moving average (EMA) model; (II) Vehicle-side negative entropy regularization to prevent FL models’ possible overfitting to EMA-introduced temporal patterns. Above two strategies empower FedEMA a dual-objective optimization that balances model generalization and adaptability. In addition, we conduct theoretical convergence analysis for the proposed FedEMA. Extensive experiments both on Cityscapes dataset and Camvid dataset demonstrate FedEMA’s superiority over existing approaches, showing 7.12% higher mean Intersection-over-Union (mIoU).

arxiv情報

著者 Wei-Bin Kou,Guangxu Zhu,Bingyang Cheng,Shuai Wang,Ming Tang,Yik-Chung Wu
発行日 2025-05-01 05:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | FedEMA: Federated Exponential Moving Averaging with Negative Entropy Regularizer in Autonomous Driving はコメントを受け付けていません

AI2-Active Safety: AI-enabled Interaction-aware Active Safety Analysis with Vehicle Dynamics

要約

このペーパーでは、グループワイズ車両の相互作用を説明するAI対応の相互作用対応アクティブ安全分析フレームワークを紹介します。
具体的には、このフレームワークは、車両のダイナミクスを正確にキャプチャするために、道路勾配の考慮事項を備えた自転車モデルを採用しています。
並行して、ハイパーグラフベースのAIモデルが開発され、周囲のトラフィックの確率的軌跡を予測します。
これらの2つのコンポーネントを統合することにより、フレームワークは、3D路面上の車両内スペースを確率的な通常の微分方程式の溶液として導き出し、衝突時間(TTC)などの高忠実度の代理安全対策をもたらします。
その有効性を実証するために、フレームワークは、4次Runge-Kutta統合とAI推論を含む確率的数値的手法を使用して分析され、複雑なマルチエージェント操縦と行動の不確実性を反映する確率加重高忠実度TTC(HF-TTC)分布を生成します。
従来の一定の速度TTCおよび高速道路データセットでの非相互作用対応アプローチに対してHF-TTCを使用して評価された提案されたフレームワークは、複雑な交通環境での安全性認識を改善する可能性を高める積極的な安全分析のための体系的な方法論を提供します。

要約(オリジナル)

This paper introduces an AI-enabled, interaction-aware active safety analysis framework that accounts for groupwise vehicle interactions. Specifically, the framework employs a bicycle model-augmented with road gradient considerations-to accurately capture vehicle dynamics. In parallel, a hypergraph-based AI model is developed to predict probabilistic trajectories of ambient traffic. By integrating these two components, the framework derives vehicle intra-spacing over a 3D road surface as the solution of a stochastic ordinary differential equation, yielding high-fidelity surrogate safety measures such as time-to-collision (TTC). To demonstrate its effectiveness, the framework is analyzed using stochastic numerical methods comprising 4th-order Runge-Kutta integration and AI inference, generating probability-weighted high-fidelity TTC (HF-TTC) distributions that reflect complex multi-agent maneuvers and behavioral uncertainties. Evaluated with HF-TTC against traditional constant-velocity TTC and non-interaction-aware approaches on highway datasets, the proposed framework offers a systematic methodology for active safety analysis with enhanced potential for improving safety perception in complex traffic environments.

arxiv情報

著者 Keshu Wu,Zihao Li,Sixu Li,Xinyue Ye,Dominique Lord,Yang Zhou
発行日 2025-05-01 05:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | AI2-Active Safety: AI-enabled Interaction-aware Active Safety Analysis with Vehicle Dynamics はコメントを受け付けていません

MotionGlot: A Multi-Embodied Motion Generation Model

要約

このホワイトペーパーでは、四足動物や人体など、さまざまな作用寸法を持つ複数の実施形態で動きを生成できるモデルであるMotionGlotを紹介します。
大規模な言語モデル(LLMS)で一般的に使用される確立されたトレーニング手順を活用することにより、モーション関連のタスク専用に設計された命令調整テンプレートを導入します。
私たちのアプローチは、LLMトレーニングの根底にある原則が、異なるアクションディメンションを持つ複数の実施形態で幅広いモーション生成タスクを学習するために成功裏に適応できることを示しています。
6つのタスクのセットでMotionGlotのさまざまな能力を示し、タスク全体で35.3%の平均改善を報告します。
さらに、2つの新しいデータセットを紹介します。(1)方向ベースのテキスト注釈とペアになった約48,000の軌跡を備えた専門家制御された四足運動のデータセットと、(2)人間のモーション生成タスクの23,000を超える状況テキストプロンプトのデータセット。
最後に、実際のアプリケーションでシステムの機能を検証するためにハードウェア実験を実施します。

要約(オリジナル)

This paper introduces MotionGlot, a model that can generate motion across multiple embodiments with different action dimensions, such as quadruped robots and human bodies. By leveraging the well-established training procedures commonly used in large language models (LLMs), we introduce an instruction-tuning template specifically designed for motionrelated tasks. Our approach demonstrates that the principles underlying LLM training can be successfully adapted to learn a wide range of motion generation tasks across multiple embodiments with different action dimensions. We demonstrate the various abilities of MotionGlot on a set of 6 tasks and report an average improvement of 35.3% across tasks. Additionally, we contribute two new datasets: (1) a dataset of expert-controlled quadruped locomotion with approximately 48,000 trajectories paired with direction-based text annotations, and (2) a dataset of over 23,000 situational text prompts for human motion generation tasks. Finally, we conduct hardware experiments to validate the capabilities of our system in real-world applications.

arxiv情報

著者 Sudarshan Harithas,Srinath Sridhar
発行日 2025-05-01 06:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MotionGlot: A Multi-Embodied Motion Generation Model はコメントを受け付けていません

Active Contact Engagement for Aerial Navigation in Unknown Environments with Glass

要約

自律的な航空ロボットは、実世界のシナリオにますます展開されています。このシナリオでは、透明なガラス障害物が信頼できるナビゲーションに大きな課題をもたらしています。
研究者は、非接触センサーと受動的な接触抵抗力のある航空車両設計の使用を調査して、ガラス面を検出します。ガラス面は、しばしば堅牢性と効率の点で制限されています。
この作業では、センサーベースと接触ベースのガラス検出の両方の強度を組み合わせた、透明なガラス障害物を備えた未知の環境での堅牢な自律航空ナビゲーションのための新しいアプローチを提案します。
提案されたシステムは、視覚センサーの測定を使用した潜在的なガラス表面に関する増分検出と情報のメンテナンスから始まります。
その後、車両は、視覚的に検出された潜在的なガラス表面と積極的にタッチアクションに関与し、一対の軽量コンタクトセンシングモジュールを使用して存在を確認または無効にします。
これに続いて、ガラスの表面情報で体積マップが効率的に更新され、ガラスの障害物を回避するために安全な軌跡がその場で再配置されます。
さまざまなシナリオでの実世界の実験を通じて提案されたシステムを検証し、ガラス障害を備えた複雑な現実世界環境で効率的で堅牢な自律航海ナビゲーションを可能にする際のその有効性を実証します。

要約(オリジナル)

Autonomous aerial robots are increasingly being deployed in real-world scenarios, where transparent glass obstacles present significant challenges to reliable navigation. Researchers have investigated the use of non-contact sensors and passive contact-resilient aerial vehicle designs to detect glass surfaces, which are often limited in terms of robustness and efficiency. In this work, we propose a novel approach for robust autonomous aerial navigation in unknown environments with transparent glass obstacles, combining the strengths of both sensor-based and contact-based glass detection. The proposed system begins with the incremental detection and information maintenance about potential glass surfaces using visual sensor measurements. The vehicle then actively engages in touch actions with the visually detected potential glass surfaces using a pair of lightweight contact-sensing modules to confirm or invalidate their presence. Following this, the volumetric map is efficiently updated with the glass surface information and safe trajectories are replanned on the fly to circumvent the glass obstacles. We validate the proposed system through real-world experiments in various scenarios, demonstrating its effectiveness in enabling efficient and robust autonomous aerial navigation in complex real-world environments with glass obstacles.

arxiv情報

著者 Xinyi Chen,Yichen Zhang,Hetai Zou,Junzhe Wang,Shaojie Shen
発行日 2025-05-01 06:14:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Active Contact Engagement for Aerial Navigation in Unknown Environments with Glass はコメントを受け付けていません

PRISM-DP: Spatial Pose-based Observations for Diffusion-Policies via Segmentation, Mesh Generation, and Pose Tracking

要約

拡散ベースの視覚運動ポリシーは、観測を条件とするアクション空間軌跡を除去することにより、ロボットの動きを生成します。
これらの観察結果は一般にRGB画像のストリームであり、その高次元にはかなりのタスクに関係のある情報が含まれているため、関連するパターンを抽出するために大きなモデルが必要です。
対照的に、時間の経過とともに重要なオブジェクトの空間ポーズ(位置と方向)などのより構造化された観測を使用すると、より少ないパラメーターで関連するパターンを認識できるよりコンパクトなポリシーをトレーニングできます。
ただし、オープンセットの実世界の環境で正確なオブジェクトのポーズを取得することは依然として困難です。
たとえば、関連するすべてのオブジェクトにマーカーが装備されていると仮定することは実用的ではありません。最近の学習ベースの6Dポーズ推定と追跡方法は、多くの場合、事前にスキャンされたオブジェクトメッシュに依存し、手動の再構築が必要です。
この作業では、PRISM-DPを提案します。これは、セグメンテーション、メッシュ生成、推定のポーズ、およびポーズ追跡モデルを活用して、タスク関連オブジェクトの空間的ポーズからコンパクトな拡散ポリシー学習を直接可能にすることを提案します。
重要なのは、PRISM-DPはメッシュ生成モデルを使用するため、手動メッシュの処理または作成の必要性を排除し、オープンセットの実世界の環境でのスケーラビリティと使いやすさを改善します。
シミュレーションと現実世界の両方の設定の両方のさまざまなタスクにわたる実験は、PRISM-DPが高次元の画像ベースの拡散ポリシーよりも優れていることを示しており、グラウンドトゥルース状態情報でトレーニングされたポリシーに匹敵するパフォーマンスを実現します。
私たちは、私たちのアプローチのより広い意味と限界についての議論で締めくくります。

要約(オリジナル)

Diffusion-based visuomotor policies generate robot motions by learning to denoise action-space trajectories conditioned on observations. These observations are commonly streams of RGB images, whose high dimensionality includes substantial task-irrelevant information, requiring large models to extract relevant patterns. In contrast, using more structured observations, such as the spatial poses (positions and orientations) of key objects over time, enables training more compact policies that can recognize relevant patterns with fewer parameters. However, obtaining accurate object poses in open-set, real-world environments remains challenging. For instance, it is impractical to assume that all relevant objects are equipped with markers, and recent learning-based 6D pose estimation and tracking methods often depend on pre-scanned object meshes, requiring manual reconstruction. In this work, we propose PRISM-DP, an approach that leverages segmentation, mesh generation, pose estimation, and pose tracking models to enable compact diffusion policy learning directly from the spatial poses of task-relevant objects. Crucially, because PRISM-DP uses a mesh generation model, it eliminates the need for manual mesh processing or creation, improving scalability and usability in open-set, real-world environments. Experiments across a range of tasks in both simulation and real-world settings show that PRISM-DP outperforms high-dimensional image-based diffusion policies and achieves performance comparable to policies trained with ground-truth state information. We conclude with a discussion of the broader implications and limitations of our approach.

arxiv情報

著者 Xiatao Sun,Yinxing Chen,Daniel Rakita
発行日 2025-05-01 06:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | PRISM-DP: Spatial Pose-based Observations for Diffusion-Policies via Segmentation, Mesh Generation, and Pose Tracking はコメントを受け付けていません

Multi-segment Soft Robot Control via Deep Koopman-based Model Predictive Control

要約

ソフトロボットは、通常の剛性ロボットと比較して、柔らかい素材を備えた複数のセグメントが柔軟性とコンプライアンスをもたらすため、環境で安全な相互作用と器用な動作の利点を持っています。
しかし、高次元、非線形性、時変性の性質、および無限の自由度の特性により、軌道追跡や位置に到達するなどの正確で動的な制御を達成する際の課題となっています。
これらの課題に対処するために、マルチセグメントソフトロボットを処理するためのディープクープマンベースのモデル予測制御(DK-MPC)のフレームワークを提案します。
最初にサンプリングデータを使用して深い学習アプローチを採用して、Koopmanオペレーターに近似するため、ソフトロボットの高次元の非線形ダイナミクスを有限の次元線形表現に線形化します。
第二に、この線形化されたモデルは、モデル予測制御フレームワーク内で利用され、目的の状態軌跡と実際の状態軌跡の間の追跡誤差を最小限に抑える最適な制御入力を計算します。
ソフトロボット「Chordata」の実世界の実験は、DK-MPCが高精度制御を達成できることを示しており、ソフトロボットへの将来のアプリケーションのDK-MPCの可能性を示しています。

要約(オリジナル)

Soft robots, compared to regular rigid robots, as their multiple segments with soft materials bring flexibility and compliance, have the advantages of safe interaction and dexterous operation in the environment. However, due to its characteristics of high dimensional, nonlinearity, time-varying nature, and infinite degree of freedom, it has been challenges in achieving precise and dynamic control such as trajectory tracking and position reaching. To address these challenges, we propose a framework of Deep Koopman-based Model Predictive Control (DK-MPC) for handling multi-segment soft robots. We first employ a deep learning approach with sampling data to approximate the Koopman operator, which therefore linearizes the high-dimensional nonlinear dynamics of the soft robots into a finite-dimensional linear representation. Secondly, this linearized model is utilized within a model predictive control framework to compute optimal control inputs that minimize the tracking error between the desired and actual state trajectories. The real-world experiments on the soft robot ‘Chordata’ demonstrate that DK-MPC could achieve high-precision control, showing the potential of DK-MPC for future applications to soft robots.

arxiv情報

著者 Lei Lv,Lei Liu,Lei Bao,Fuchun Sun,Jiahong Dong,Jianwei Zhang,Xuemei Shan,Kai Sun,Hao Huang,Yu Luo
発行日 2025-05-01 06:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Multi-segment Soft Robot Control via Deep Koopman-based Model Predictive Control はコメントを受け付けていません

Urban Air Mobility as a System of Systems: An LLM-Enhanced Holonic Approach

要約

Urban Air Mobility(UAM)は、システムアーキテクチャ、計画、タスク管理、および実行の課題に直面するシステム(SOS)の新興システム(SOS)です。
従来の建築的アプローチは、動的環境と複雑な環境内でのスケーラビリティ、適応性、シームレスなリソース統合と闘っています。
このペーパーでは、UAMの複雑さを管理するために大規模な言語モデル(LLM)を組み込んだインテリジェントホロニックアーキテクチャを紹介します。
ホロンは自律的に半機能し、航空タクシー、地上輸送、ヴェルティポート間のリアルタイム調整を可能にします。
LLMSは、自然言語の入力を処理し、適応計画を生成し、天候の変化や空域の閉鎖などの混乱を管理します。電気スクーターと空気タクシーを使用したマルチモーダル輸送のケーススタディを通じて、このアーキテクチャがどのように動的なリソースの割り当て、リアルタイムの補充、自律的な適応が集中制御され、より弾力性のある都市輸送ネットワークを作成することを可能にします。
分散型制御とAI駆動型の適応性を進めることにより、この作業は、ハイブリッドAIの統合と現実世界の検証を対象とした将来の努力により、回復力のある人間中心のUAMエコシステムの基礎を築きます。

要約(オリジナル)

Urban Air Mobility (UAM) is an emerging System of System (SoS) that faces challenges in system architecture, planning, task management, and execution. Traditional architectural approaches struggle with scalability, adaptability, and seamless resource integration within dynamic and complex environments. This paper presents an intelligent holonic architecture that incorporates Large Language Model (LLM) to manage the complexities of UAM. Holons function semi autonomously, allowing for real time coordination among air taxis, ground transport, and vertiports. LLMs process natural language inputs, generate adaptive plans, and manage disruptions such as weather changes or airspace closures.Through a case study of multimodal transportation with electric scooters and air taxis, we demonstrate how this architecture enables dynamic resource allocation, real time replanning, and autonomous adaptation without centralized control, creating more resilient and efficient urban transportation networks. By advancing decentralized control and AI driven adaptability, this work lays the groundwork for resilient, human centric UAM ecosystems, with future efforts targeting hybrid AI integration and real world validation.

arxiv情報

著者 Ahmed R. Sadik,Muhammad Ashfaq,Niko Mäkitalo,Tommi Mikkonen
発行日 2025-05-01 07:39:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.MA, cs.RO | Urban Air Mobility as a System of Systems: An LLM-Enhanced Holonic Approach はコメントを受け付けていません

RoboBERT: An End-to-end Multimodal Robotic Manipulation Model

要約

具体化されたインテリジェンスはビジョン、言語、およびアクションをシームレスに統合します。〜しかし、ほとんどのマルチモーダルロボットモデルは、大規模な微調整、ハイタイムとハードウェアコストの発生に依存しています。〜これに対処するために、新しい2段階トレーニングパラダイムを中心に構築されたエンドツーエンドのマルチモーダル操作モデルを紹介します。
CNNベースの拡散ポリシーを介して安定したポリシー学習に焦点を当てる。〜第2段階では、すべてのモジュールを外し、多様な自然言語のバリエーションを挿入し、パフォーマンスを不安定にすることなく、すでに学習したポリシーにさまざまな指示を迅速に調整します。
(SOTA)言語標識エキスパートデモンストレーションと比較的軽量アーキテクチャのみを使用して、カルバンABCD-Dベンチマークで4.52の平均エピソード長4.52およびABC-Dベンチマークで3.79。
マルチモーダルロボットシステムにスケーラブルで広く適用可能なパフォーマンス。

要約(オリジナル)

Embodied intelligence seamlessly integrates vision, language, and action.~However, most multimodal robotic models rely on massive fine-tuning, incurring high time and hardware costs.~To address this, we introduce RoboBERT, an end-to-end multimodal manipulation model built around a novel two-stage training paradigm.~In the first stage, we freeze most of the vision encoder and train with a single ‘standard’ instruction phrasing, allowing the model to focus on stable policy learning via a CNN-based diffusion policy.~In the second stage, we unfreeze all modules and inject diverse natural language variants, rapidly aligning varied instructions to the already-learned policy without destabilizing performance.~We further employ systematic data augmentations to enhance robustness against visual perturbations.~Without relying on auxiliary datasets, RoboBERT achieves new state-of-the-art (SOTA) mean episode lengths of 4.52 on the CALVIN ABCD-D benchmark and 3.79 on the ABC-D benchmark using only language-labeled expert demonstrations and a comparatively lightweight architecture.Real-robot trials on a 6-DOF manipulator confirm higher success rates than comparable methods trained on identical data.These results demonstrate that our data-augmentation-enhanced two-stage training paradigm delivers efficient, scalable, and broadly applicable performance for multimodal robotic systems.

arxiv情報

著者 Sicheng Wang,Sheng Liu,Weiheng Wang,Jianhua Shan,Bin Fang
発行日 2025-05-01 08:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | RoboBERT: An End-to-end Multimodal Robotic Manipulation Model はコメントを受け付けていません

Holistic Optimization of Modular Robots

要約

モジュラーロボットは、特定のタスクに対して構成を最適化できるため、自動化に革命をもたらす可能性があります。
ただし、最適な組成を見つけることは自明ではありません。
さらに、異なる構成には、モジュラーロボットの可能性を完全に使用するために、異なるベース位置と軌跡が必要です。
組成、ベース配置、および軌道を共同で最適化して、特定のタスクのサイクル時間を最小限に抑えることにより、この問題に初めて総合的に対処します。
私たちのアプローチは、ポイントツーポイントの動きを必要とする300を超える産業用ベンチマークで評価されます。
全体として、サイクル時間を最大25%削減し、モジュールの構成だけを最適化するのと比較して、2倍のベンチマークで実行可能なソリューションを見つけます。
ポイントツーポイントの動きに最適化されたモジュラーロボットの最初の現実世界の検証では、最適化されたロボットは、1時間以内に10症例のうち9症例で正常に展開されていることがわかります。

要約(オリジナル)

Modular robots have the potential to revolutionize automation as one can optimize their composition for any given task. However, finding optimal compositions is non-trivial. In addition, different compositions require different base positions and trajectories to fully use the potential of modular robots. We address this problem holistically for the first time by jointly optimizing the composition, base placement, and trajectory, to minimize the cycle time of a given task. Our approach is evaluated on over 300 industrial benchmarks requiring point-to-point movements. Overall, we reduce cycle time by up to 25% and find feasible solutions in twice as many benchmarks compared to optimizing the module composition alone. In the first real-world validation of modular robots optimized for point-to-point movement, we find that the optimized robot is successfully deployed in nine out of ten cases in less than an hour.

arxiv情報

著者 Matthias Mayer,Matthias Althoff
発行日 2025-05-01 08:43:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Holistic Optimization of Modular Robots はコメントを受け付けていません