TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction

要約

シミュレーションで学習し、学習したポリシーを現実世界に移すことで、ジェネラリストロボットを実現できる可能性があります。
このアプローチの主な課題は、シミュレーションと現実 (シミュレーションと現実) のギャップに対処することです。
以前の方法では、多くの場合、ドメイン固有の事前知識が必要です。
私たちは、そのような知識を得る簡単な方法は、現実世界でロボットの政策実行を人間に観察して支援してもらうことだと主張します。
その後、ロボットは人間から学習して、シミュレーションと現実のさまざまなギャップを埋めることができます。
私たちは、人間参加型フレームワークに基づいてシミュレーションからリアルへの転送を成功させるデータ駆動型アプローチである TRANSIC を提案します。
TRANSIC を使用すると、人間はシミュレーション ポリシーを拡張して、モデル化されていないシミュレーションと現実のさまざまなギャップを介入とオンライン修正を通じて総合的に克服できます。
残留ポリシーは人間による修正から学習し、自律的に実行するためのシミュレーション ポリシーと統合できます。
私たちのアプローチは、家具の組み立てなどの複雑で接触の多い操作タスクにおいて、シミュレーションからリアルへの変換を成功させることができることを示します。
TRANSIC は、シミュレーションと人間から学習したポリシーを相乗的に統合することにより、多くの場合共存するさまざまなシミュレーションと現実のギャップに対処するための総合的なアプローチとして効果的です。
人間の努力によるスケーリングなどの魅力的な特性を示します。
ビデオとコードは https://transic-robot.github.io/ で入手できます。

要約(オリジナル)

Learning in simulation and transferring the learned policy to the real world has the potential to enable generalist robots. The key challenge of this approach is to address simulation-to-reality (sim-to-real) gaps. Previous methods often require domain-specific knowledge a priori. We argue that a straightforward way to obtain such knowledge is by asking humans to observe and assist robot policy execution in the real world. The robots can then learn from humans to close various sim-to-real gaps. We propose TRANSIC, a data-driven approach to enable successful sim-to-real transfer based on a human-in-the-loop framework. TRANSIC allows humans to augment simulation policies to overcome various unmodeled sim-to-real gaps holistically through intervention and online correction. Residual policies can be learned from human corrections and integrated with simulation policies for autonomous execution. We show that our approach can achieve successful sim-to-real transfer in complex and contact-rich manipulation tasks such as furniture assembly. Through synergistic integration of policies learned in simulation and from humans, TRANSIC is effective as a holistic approach to addressing various, often coexisting sim-to-real gaps. It displays attractive properties such as scaling with human effort. Videos and code are available at https://transic-robot.github.io/

arxiv情報

著者 Yunfan Jiang,Chen Wang,Ruohan Zhang,Jiajun Wu,Li Fei-Fei
発行日 2024-10-14 06:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction はコメントを受け付けていません

A Surface Adaptive First-Look Inspection Planner for Autonomous Remote Sensing of Open-Pit Mines

要約

この研究では、稼働中の露天掘り鉱山におけるリモートセンシングタスクのための自律検査フレームワークを紹介します。
具体的には、オペレータが定義した初期の近似検査計画をオンライン ビュー プランナーによって利用して、ルート採掘活動によって引き起こされる現在の地雷切羽形態の変化に適応できる検査経路を予測する方法論の開発に貢献します。
提案された検査フレームワークは、瞬時の 3D LiDAR および位置測定と、モデル化されたセンサーのフットプリントを組み合わせて、望ましい観察および写真測量条件を満たすビュープランニングを活用します。
提案されたフレームワークの有効性は、フェイリング・ブルク露天掘り鉱山環境でのシミュレーションとハードウェアベースの屋外実験試験を通じて実証されています。
提案された作品のパフォーマンスを紹介するビデオはここでご覧いただけます: https://youtu.be/uWWbDfoBvFc

要約(オリジナル)

In this work, we present an autonomous inspection framework for remote sensing tasks in active open-pit mines. Specifically, the contributions are focused towards developing a methodology where an initial approximate operator-defined inspection plan is exploited by an online view-planner to predict an inspection path that can adapt to changes in the current mine-face morphology caused by route mining activities. The proposed inspection framework leverages instantaneous 3D LiDAR and localization measurements coupled with modelled sensor footprint for view-planning satisfying desired viewing and photogrammetric conditions. The efficacy of the proposed framework has been demonstrated through simulation in Feiring-Bruk open-pit mine environment and hardware-based outdoor experimental trials. The video showcasing the performance of the proposed work can be found here: https://youtu.be/uWWbDfoBvFc

arxiv情報

著者 Vignesh Kottayam Viswanathan,Vidya Sumathy,Christoforos Kanellakis,George Nikolakopoulos
発行日 2024-10-14 08:12:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Surface Adaptive First-Look Inspection Planner for Autonomous Remote Sensing of Open-Pit Mines はコメントを受け付けていません

Kinematic-ICP: Enhancing LiDAR Odometry with Kinematic Constraints for Wheeled Mobile Robots Moving on Planar Surfaces

要約

LiDAR オドメトリは、3D マッピング、ナビゲーション、位置特定とマッピングの同時実行など、多くのロボット アプリケーションに不可欠です。
LiDAR オドメトリ システムは通常、移動ロボットの自我運動を計算するために、何らかの形式の点群登録に基づいています。
しかし、今日の LiDAR オドメトリ システムでは、点群の位置合わせ中にドメイン固有の知識とモバイル プラットフォームの運動学モデルを考慮しているものはほとんどありません。
本稿では、倉庫、オフィス、病院などの一般的な想定である平面上を移動する3D LiDARを搭載した車輪付き移動ロボットに焦点を当てたLiDARオドメトリシステムであるKinematic-ICPを紹介します。私たちのアプローチはキネマティックを導入しています。
従来のポイントツーポイント反復最近点スキームの最適化内の制約。
このようにして、結果として得られるモーションはプラットフォームの運動学的制約に従い、ロボットのホイール オドメトリと 3D LiDAR 観察を効果的に活用します。
最適化スキームでは、LiDAR 測定と車輪走行距離の影響を動的に調整し、機能が乏しい廊下などの縮退シナリオをシステムが処理できるようにします。
大規模な倉庫環境だけでなく屋外でも動作するロボットに関する当社のアプローチを評価します。
実験では、私たちのアプローチが最高のパフォーマンスを達成し、ホイール走行距離測定や一般的な LiDAR 走行距離測定システムよりも正確であることが示されています。
Kinematic-ICP は最近、世界中の顧客サイトの倉庫で稼働している Dexory のロボット フリートに導入され、私たちのメソッドが完全なナビゲーション スタックと並行して現実世界で実行できることを示しています。

要約(オリジナル)

LiDAR odometry is essential for many robotics applications, including 3D mapping, navigation, and simultaneous localization and mapping. LiDAR odometry systems are usually based on some form of point cloud registration to compute the ego-motion of a mobile robot. Yet, few of today’s LiDAR odometry systems consider the domain-specific knowledge and the kinematic model of the mobile platform during the point cloud alignment. In this paper, we present Kinematic-ICP, a LiDAR odometry system that focuses on wheeled mobile robots equipped with a 3D LiDAR and moving on a planar surface, which is a common assumption for warehouses, offices, hospitals, etc. Our approach introduces kinematic constraints within the optimization of a traditional point-to-point iterative closest point scheme. In this way, the resulting motion follows the kinematic constraints of the platform, effectively exploiting the robot’s wheel odometry and the 3D LiDAR observations. We dynamically adjust the influence of LiDAR measurements and wheel odometry in our optimization scheme, allowing the system to handle degenerate scenarios such as feature-poor corridors. We evaluate our approach on robots operating in large-scale warehouse environments, but also outdoors. The experiments show that our approach achieves top performances and is more accurate than wheel odometry and common LiDAR odometry systems. Kinematic-ICP has been recently deployed in the Dexory fleet of robots operating in warehouses worldwide at their customers’ sites, showing that our method can run in the real world alongside a complete navigation stack.

arxiv情報

著者 Tiziano Guadagnino,Benedikt Mersch,Ignacio Vizzo,Saurabh Gupta,Meher V. R. Malladi,Luca Lobefaro,Guillaume Doisy,Cyrill Stachniss
発行日 2024-10-14 08:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Kinematic-ICP: Enhancing LiDAR Odometry with Kinematic Constraints for Wheeled Mobile Robots Moving on Planar Surfaces はコメントを受け付けていません

Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems

要約

自律兵器システム (AWS) を軍事作戦に統合することは、重要な機会と課題の両方をもたらします。
このペーパーでは、AWS における信頼の多面的な性質を検討し、偏見、運用上の失敗、説明責任に関連するリスクを軽減するために信頼性が高く透明性のあるシステムを確立する必要性を強調します。
人工知能 (AI) の進歩にもかかわらず、特に一か八かの軍事用途において、これらのシステムの信頼性は依然として重要な問題です。
この調査では、既存の文献を体系的にレビューすることで、AWS の開発およびデプロイメント段階における信頼のダイナミクスの理解におけるギャップを特定しています。
これらの進行中の課題に対処するために、技術者、倫理学者、軍事戦略家を含む協力的なアプローチを提唱しています。
この調査結果は、説明責任と国際人道法の順守を確保するために、人間と機械のチーム化とシステムの分かりやすさの向上の重要性を強調しています。
最終的に、このペーパーは、AWS の倫理的影響と、防衛の文脈における信頼できる AI の必須事項に関する現在進行中の議論に貢献することを目的としています。

要約(オリジナル)

The integration of Autonomous Weapon Systems (AWS) into military operations presents both significant opportunities and challenges. This paper explores the multifaceted nature of trust in AWS, emphasising the necessity of establishing reliable and transparent systems to mitigate risks associated with bias, operational failures, and accountability. Despite advancements in Artificial Intelligence (AI), the trustworthiness of these systems, especially in high-stakes military applications, remains a critical issue. Through a systematic review of existing literature, this research identifies gaps in the understanding of trust dynamics during the development and deployment phases of AWS. It advocates for a collaborative approach that includes technologists, ethicists, and military strategists to address these ongoing challenges. The findings underscore the importance of Human-Machine teaming and enhancing system intelligibility to ensure accountability and adherence to International Humanitarian Law. Ultimately, this paper aims to contribute to the ongoing discourse on the ethical implications of AWS and the imperative for trustworthy AI in defense contexts.

arxiv情報

著者 Kasper Cools,Clara Maathuis
発行日 2024-10-14 08:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.RO | Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems はコメントを受け付けていません

Preliminary Evaluation of an Ultrasound-Guided Robotic System for Autonomous Percutaneous Intervention

要約

がんの症例は世界的に増加しており、2023年には1,000万人近くが死亡します。診断に不可欠な生検は、多くの場合、超音波(米国)のガイド下で行われ、正確な手の調整と認知的意思決定が要求されます。
ロボット支援介入は、ノイズの多い 2D 画像などの課題に対処し、一貫したプローブと表面の接触を維持することにより、病変ターゲットの精度が向上することを示しています。
最近の研究は、標準化された診断手順と再現可能な US ガイド下治療を可能にする完全自律型ロボット US システムに焦点を当てています。
この研究では、エンドツーエンドの臨床ワークフローを実行できる、US ガイドによる針留置のための完全自律システムを紹介します。
このシステムは自律的に、1) 患者の腹部表面上の肝臓領域を識別し、2) インピーダンス制御を使用して US スキャン パスを計画および実行し、3) US 画像からリアルタイムで病変の位置を特定し、4) 識別された病変をターゲットにします。
すべて人間の介入なしで。
この研究では、位置制御システムとインピーダンス制御システムの両方を評価します。
寒天ファントムでの検証では、ターゲティングエラーが 5.74 +- 2.70 mm であることが実証され、5 mm を超える腫瘍を正確にターゲティングできる可能性が強調されました。
達成された結果は、米国主導の生検のための完全自律システムの可能性を示しています。

要約(オリジナル)

Cancer cases have been rising globally, resulting in nearly 10 million deaths in 2023. Biopsy, crucial for diagnosis, is often performed under ultrasound (US) guidance, demanding precise hand coordination and cognitive decision-making. Robot-assisted interventions have shown improved accuracy in lesion targeting by addressing challenges such as noisy 2D images and maintaining consistent probe-to-surface contact. Recent research has focused on fully autonomous robotic US systems to enable standardized diagnostic procedures and reproducible US-guided therapy. This study presents a fully autonomous system for US-guided needle placement capable of performing end-to-end clinical workflow. The system autonomously: 1) identifies the liver region on the patient’s abdomen surface, 2) plans and executes the US scanning path using impedance control, 3) localizes lesions from the US images in real-time, and 4) targets the identified lesions, all without human intervention. This study evaluates both position and impedance-controlled systems. Validation on agar phantoms demonstrated a targeting error of 5.74 +- 2.70 mm, highlighting its potential for accurately targeting tumors larger than 5 mm. Achieved results show its potential for a fully autonomous system for US-guided biopsies.

arxiv情報

著者 Pratima Mohan,Aayush Agrawal,Niravkumar A. Patel
発行日 2024-10-14 08:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Preliminary Evaluation of an Ultrasound-Guided Robotic System for Autonomous Percutaneous Intervention はコメントを受け付けていません

Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective

要約

強化学習 (RL) は最近、ロボット制御において目覚ましい成功を収めています。
ただし、RL のほとんどの作品は、特権的な知識 (力学、環境、地形など) がすぐに利用できるシミュレートされた環境で動作します。
逆に、現実世界のシナリオでは、ロボットエージェントは通常、アクションを選択するためにローカル状態(ロボット関節の固有受容フィードバックなど)のみに依存するため、シミュレーションと現実の大きなギャップが生じます。
既存の方法では、特権知識への依存を徐々に減らすか、2 段階のポリシー模倣を実行することで、このギャップに対処しています。
ただし、これらの方法では、利用可能な特権知識を十分に活用する能力が限られており、最適なパフォーマンスが得られないと主張します。
この論文では、シミュレーションと実際のギャップを情報ボトルネック問題として定式化し、履歴情報ボトルネック (HIB) と呼ばれる新しい特権知識蒸留方法を提案します。
特に、HIB は、基礎となる変更可能な動的情報をキャプチャすることによって、歴史的軌跡から特権的な知識表現を学習します。
理論分析によると、学習された特権知識表現は、オラクル ポリシーと学習されたポリシーの間の価値の不一致を軽減するのに役立ちます。
シミュレートされたタスクと現実世界のタスクの両方に関する実証実験により、HIB が以前の方法と比較して一般化可能性が向上することが実証されています。
実際の実験のビデオは https://sites.google.com/view/history-ib でご覧いただけます。

要約(オリジナル)

Reinforcement Learning (RL) has recently achieved remarkable success in robotic control. However, most works in RL operate in simulated environments where privileged knowledge (e.g., dynamics, surroundings, terrains) is readily available. Conversely, in real-world scenarios, robot agents usually rely solely on local states (e.g., proprioceptive feedback of robot joints) to select actions, leading to a significant sim-to-real gap. Existing methods address this gap by either gradually reducing the reliance on privileged knowledge or performing a two-stage policy imitation. However, we argue that these methods are limited in their ability to fully leverage the available privileged knowledge, resulting in suboptimal performance. In this paper, we formulate the sim-to-real gap as an information bottleneck problem and therefore propose a novel privileged knowledge distillation method called the Historical Information Bottleneck (HIB). In particular, HIB learns a privileged knowledge representation from historical trajectories by capturing the underlying changeable dynamic information. Theoretical analysis shows that the learned privileged knowledge representation helps reduce the value discrepancy between the oracle and learned policies. Empirical experiments on both simulated and real-world tasks demonstrate that HIB yields improved generalizability compared to previous methods. Videos of real-world experiments are available at https://sites.google.com/view/history-ib .

arxiv情報

著者 Haoran He,Peilin Wu,Chenjia Bai,Hang Lai,Lingxiao Wang,Ling Pan,Xiaolin Hu,Weinan Zhang
発行日 2024-10-14 09:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective はコメントを受け付けていません

HumanFT: A Human-like Fingertip Multimodal Visuo-Tactile Sensor

要約

触覚センサーは、ロボットが日常業務において物体と効果的かつ安全に対話できるようにする上で重要な役割を果たします。
特に、視覚触覚センサーは、その高品質なフィードバックにより、2 本指および 3 本指のグリッパーでの使用が増加しています。
しかし、人型ロボット、特に器用な 5 本指の手に適したセンサーの開発には、依然として大きなギャップが残されています。
その理由の 1 つは、サイズがコンパクトなセンサーの設計と製造における課題にあります。
この論文では、人間の指先の形状と機能を再現するマルチモーダル視覚触覚センサー HumanFT を提案します。
人間の触覚センシングとロボットの触覚センシングの間のギャップを埋めるために、当社のセンサーはリアルタイムの力測定、高周波振動検出、および過熱アラートを備えています。
これを達成するために、私たちは力の伝播と温度感知に最適化された新しいタイプのエラストマーの一連の製造技術を開発しました。
さらに、当社のセンサーには、圧力と振動を感知できる回路が組み込まれています。
これらの機能は実験を通じて検証されています。
提案された設計はシンプルで、コスト効率よく製造できます。
私たちは、HumanFT がマルチモーダルな触覚情報を取得して解釈することにより、ヒューマノイド ロボットの知覚を強化できると信じています。

要約(オリジナル)

Tactile sensors play a crucial role in enabling robots to interact effectively and safely with objects in everyday tasks. In particular, visuotactile sensors have seen increasing usage in two and three-fingered grippers due to their high-quality feedback. However, a significant gap remains in the development of sensors suitable for humanoid robots, especially five-fingered dexterous hands. One reason is because of the challenges in designing and manufacturing sensors that are compact in size. In this paper, we propose HumanFT, a multimodal visuotactile sensor that replicates the shape and functionality of a human fingertip. To bridge the gap between human and robotic tactile sensing, our sensor features real-time force measurements, high-frequency vibration detection, and overtemperature alerts. To achieve this, we developed a suite of fabrication techniques for a new type of elastomer optimized for force propagation and temperature sensing. Besides, our sensor integrates circuits capable of sensing pressure and vibration. These capabilities have been validated through experiments. The proposed design is simple and cost-effective to fabricate. We believe HumanFT can enhance humanoid robots’ perception by capturing and interpreting multimodal tactile information.

arxiv情報

著者 Yifan Wu,Yuzhou Chen,Zhengying Zhu,Xuhao Qin,Chenxi Xiao
発行日 2024-10-14 10:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HumanFT: A Human-like Fingertip Multimodal Visuo-Tactile Sensor はコメントを受け付けていません

Efficiently Obtaining Reachset Conformance for the Formal Analysis of Robotic Contact Tasks

要約

ロボットタスクの正式な検証には、使用されるロボットのシンプルかつ適合したモデルが必要です。
ハイブリッド (連続および離散混合) ダイナミクスを考慮したロボット接触タスクのリーチセット適合モデルを生成する最初の研究を紹介します。
リーチセット準拠では、安全特性を伝達するために、抽象モデルの到達可能な出力のセットに以前のすべての測定値が含まれることが必要です。
産業応用を目指して、線形ダイナミクスを備えた単純なハイブリッド オートマトンを使用してシステムを説明します。
連続ダイナミクスと離散遷移に非決定性を導入し、記録された動作を捕捉するために必要な非決定性とともにすべてのモデル パラメーターを最適に特定します。
2 つの 3-DOF ロボットを使用することで、私たちのアプローチがシステム動作の不確実性を捉えるモデルを効果的に生成し、産業用途で必要なテスト労力を大幅に削減できることを示します。

要約(オリジナル)

Formal verification of robotic tasks requires a simple yet conformant model of the used robot. We present the first work on generating reachset conformant models for robotic contact tasks considering hybrid (mixed continuous and discrete) dynamics. Reachset conformance requires that the set of reachable outputs of the abstract model encloses all previous measurements to transfer safety properties. Aiming for industrial applications, we describe the system using a simple hybrid automaton with linear dynamics. We inject non-determinism into the continuous dynamics and the discrete transitions, and we optimally identify all model parameters together with the non-determinism required to capture the recorded behaviors. Using two 3-DOF robots, we show that our approach can effectively generate models to capture uncertainties in system behavior and substantially reduce the required testing effort in industrial applications.

arxiv情報

著者 Chencheng Tang,Matthias Althoff
発行日 2024-10-14 11:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Efficiently Obtaining Reachset Conformance for the Formal Analysis of Robotic Contact Tasks はコメントを受け付けていません

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation

要約

言語ガイドによるロボット操作は、さまざまな複雑な操作タスクを達成するために、身体化されたエージェントが抽象的なユーザーの指示に従う必要がある難しいタスクです。
これまでの研究では、命令と低レベルの実行可能なアクションとの関係を明らかにせずにデータを単純にフィッティングしていましたが、これらのモデルは、移転可能な知識を取得する代わりにデータの表面的なパターンを記憶する傾向があり、そのため動的な環境の変化に対して脆弱でした。
この問題に対処するために、タスク関連のウェイポイントの予測のみに焦点を当てたロボット操作用の PrIrmitive 駆動のウェイポイント認識世界モデル (PIVOT-R) を提案します。
具体的には、PIVOT-R は Waypoint-aware World Model (WAWM) と軽量のアクション予測モジュールで構成されます。
前者はプリミティブ アクションの解析とプリミティブ駆動のウェイポイント予測を実行し、後者は低レベル アクションのデコードに焦点を当てます。
さらに、モデルの異なるモジュールに異なる実行頻度を使用できる非同期階層エグゼキューター (AHE) も設計します。これにより、モデルの計算冗長性が削減され、モデルの実行効率が向上します。
当社の PIVOT-R は、SeaWave ベンチマークで最先端 (SoTA) オープンソース モデルを上回るパフォーマンスを示し、4 つのレベルの指導タスクにわたって平均 19.45% の相対的改善を達成しました。
さらに、同期実行される PIVOT-R と比較して、AHE を使用した PIVOT-R の実行効率は 28 倍向上しますが、パフォーマンスの低下はわずか 2.9% です。
これらの結果は、当社の PIVOT-R がロボット操作のパフォーマンスと効率の両方を大幅に向上させることができるという説得力のある証拠を提供します。

要約(オリジナル)

Language-guided robotic manipulation is a challenging task that requires an embodied agent to follow abstract user instructions to accomplish various complex manipulation tasks. Previous work trivially fitting the data without revealing the relation between instruction and low-level executable actions, these models are prone to memorizing the surficial pattern of the data instead of acquiring the transferable knowledge, and thus are fragile to dynamic environment changes. To address this issue, we propose a PrIrmitive-driVen waypOinT-aware world model for Robotic manipulation (PIVOT-R) that focuses solely on the prediction of task-relevant waypoints. Specifically, PIVOT-R consists of a Waypoint-aware World Model (WAWM) and a lightweight action prediction module. The former performs primitive action parsing and primitive-driven waypoint prediction, while the latter focuses on decoding low-level actions. Additionally, we also design an asynchronous hierarchical executor (AHE), which can use different execution frequencies for different modules of the model, thereby helping the model reduce computational redundancy and improve model execution efficiency. Our PIVOT-R outperforms state-of-the-art (SoTA) open-source models on the SeaWave benchmark, achieving an average relative improvement of 19.45% across four levels of instruction tasks. Moreover, compared to the synchronously executed PIVOT-R, the execution efficiency of PIVOT-R with AHE is increased by 28-fold, with only a 2.9% drop in performance. These results provide compelling evidence that our PIVOT-R can significantly improve both the performance and efficiency of robotic manipulation.

arxiv情報

著者 Kaidong Zhang,Pengzhen Ren,Bingqian Lin,Junfan Lin,Shikui Ma,Hang Xu,Xiaodan Liang
発行日 2024-10-14 11:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation はコメントを受け付けていません

SMART-TRACK: A Novel Kalman Filter-Guided Sensor Fusion For Robust UAV Object Tracking in Dynamic Environments

要約

物体の検出と位置特定のためのセンサー フュージョンと状態推定の分野では、動的環境で正確な追跡を保証することが大きな課題となります。
カルマン フィルター (KF) のような従来の方法は、測定が断続的である場合に失敗することが多く、状態推定の急速な発散につながります。
これに対処するために、KF からの高周波状態推定を利用して新しい測定値の検索をガイドし、直接測定が滞る場合でも追跡の連続性を維持する新しいアプローチである SMART (Sensor Measurement Augmentation and Reacquisition Tracker) を導入します。
これは、従来の方法では困難が伴う動的な環境にとって非常に重要です。
当社の貢献は次のとおりです。 1) KF フィードバックを使用した多用途の測定増強: 主要な物体検出器が断続的に故障した場合のバックアップとして機能する多用途の測定増強システムを実装しています。
このシステムはさまざまなセンサーに適応でき、KF の 3D 予測が 2D 深度画像座標に投影される深度カメラを使用して実証され、一次近似に簡略化された非線形共分散伝播技術が統合されています。
2) オープンソース ROS2 実装: SMART-TRACK フレームワークのオープンソース ROS2 実装を提供し、Gazebo と ROS2 を使用した現実的なシミュレーション環境で検証され、より広範な適応とさらなる研究を促進します。
私たちの結果は、追跡安定性の大幅な強化を示しており、測定中断時の推定RMSEはわずか0.04 mで、UAV追跡の堅牢性が向上し、複雑なシナリオにおける信頼性の高い自律UAV運用の可能性が拡大します。
実装は https://github.com/mzahana/SMART-TRACK で入手できます。

要約(オリジナル)

In the field of sensor fusion and state estimation for object detection and localization, ensuring accurate tracking in dynamic environments poses significant challenges. Traditional methods like the Kalman Filter (KF) often fail when measurements are intermittent, leading to rapid divergence in state estimations. To address this, we introduce SMART (Sensor Measurement Augmentation and Reacquisition Tracker), a novel approach that leverages high-frequency state estimates from the KF to guide the search for new measurements, maintaining tracking continuity even when direct measurements falter. This is crucial for dynamic environments where traditional methods struggle. Our contributions include: 1) Versatile Measurement Augmentation Using KF Feedback: We implement a versatile measurement augmentation system that serves as a backup when primary object detectors fail intermittently. This system is adaptable to various sensors, demonstrated using depth cameras where KF’s 3D predictions are projected into 2D depth image coordinates, integrating nonlinear covariance propagation techniques simplified to first-order approximations. 2) Open-source ROS2 Implementation: We provide an open-source ROS2 implementation of the SMART-TRACK framework, validated in a realistic simulation environment using Gazebo and ROS2, fostering broader adaptation and further research. Our results showcase significant enhancements in tracking stability, with estimation RMSE as low as 0.04 m during measurement disruptions, advancing the robustness of UAV tracking and expanding the potential for reliable autonomous UAV operations in complex scenarios. The implementation is available at https://github.com/mzahana/SMART-TRACK.

arxiv情報

著者 Khaled Gabr,Mohamed Abdelkader,Imen Jarraya,Abdullah AlMusalami,Anis Koubaa
発行日 2024-10-14 12:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SMART-TRACK: A Novel Kalman Filter-Guided Sensor Fusion For Robust UAV Object Tracking in Dynamic Environments はコメントを受け付けていません