ColorDynamic: Generalizable, Scalable, Real-time, End-to-end Local Planner for Unstructured and Dynamic Environments

要約

ディープ補強学習(DRL)は、ロボットのローカル計画の問題に対処する際の可能性を実証していますが、その有効性は非常に構造化されていない動的環境で拘束されたままです。
これらの課題に対処するために、この研究はColordynamicフレームワークを提案しています。
まず、エンドツーエンドのDRL定式化が確立され、生のセンサーデータを直接マップしてコマンドを制御し、それにより、構造化されていない環境との互換性を確保します。
この定式化の下で、新しいネットワークであるtransqerが導入されます。
Transqerは、時間的移行からのオンラインDRL学習を可能にし、動的シナリオでの意思決定を大幅に強化します。
多様なデータを使用したTransqerのスケーラブルなトレーニングを容易にするために、対称不変性を活用するデータ増強技術とともに、効率的なシミュレーションプラットフォームE-SPARROWが開発されます。
コロルディナミックの有効性を検証するために、一般化、スケーラビリティ、およびリアルタイムパフォーマンスの評価とともに、最先端の方法との比較評価が実施されました。
結果は、私たちのアプローチがリアルタイム容量(計画ごとに1.2〜1.3ミリ秒)を示す間、90%を超える成功率を達成することを示しています。
さらに、個々のコンポーネントの貢献を裏付けるために、アブレーション研究が実施されました。
これに基づいて、OkePlan-Colordynamic(OPCD)ナビゲーションシステムが提示されており、複雑なシナリオでの優位性と適用性を実証したシミュレーションおよび実際の実験が実証されています。
コードベースと実験的デモンストレーションは、再現性とさらなる研究を促進するために、当社のWebサイトにオープンソーリングされています。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has demonstrated potential in addressing robotic local planning problems, yet its efficacy remains constrained in highly unstructured and dynamic environments. To address these challenges, this study proposes the ColorDynamic framework. First, an end-to-end DRL formulation is established, which maps raw sensor data directly to control commands, thereby ensuring compatibility with unstructured environments. Under this formulation, a novel network, Transqer, is introduced. The Transqer enables online DRL learning from temporal transitions, substantially enhancing decision-making in dynamic scenarios. To facilitate scalable training of Transqer with diverse data, an efficient simulation platform E-Sparrow, along with a data augmentation technique leveraging symmetric invariance, are developed. Comparative evaluations against state-of-the-art methods, alongside assessments of generalizability, scalability, and real-time performance, were conducted to validate the effectiveness of ColorDynamic. Results indicate that our approach achieves a success rate exceeding 90% while exhibiting real-time capacity (1.2-1.3 ms per planning). Additionally, ablation studies were performed to corroborate the contributions of individual components. Building on this, the OkayPlan-ColorDynamic (OPCD) navigation system is presented, with simulated and real-world experiments demonstrating its superiority and applicability in complex scenarios. The codebase and experimental demonstrations have been open-sourced on our website to facilitate reproducibility and further research.

arxiv情報

著者 Jinghao Xin,Zhichao Liang,Zihuan Zhang,Peng Wang,Ning Li
発行日 2025-02-27 09:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | ColorDynamic: Generalizable, Scalable, Real-time, End-to-end Local Planner for Unstructured and Dynamic Environments はコメントを受け付けていません

TRIFFID: Autonomous Robotic Aid For Increasing First Responders Efficiency

要約

自然災害事件の複雑さの増加は、彼らの努力において最初の対応者をサポートするための革新的な技術的ソリューションを要求します。
このペーパーでは、無人の地面と航空車を高度な人工知能機能と統合して、山火事、都市の洪水、地球捜索後の救助ミッション全体の災害対応能力を強化する包括的な技術的枠組みであるTriffidシステムを紹介します。
Triffidは、最先端の自律ナビゲーション、セマンティック認識、およびヒューマンロボット相互作用技術を活用することにより、ハイブリッドロボットプラットフォーム、集中型地上ステーション、カスタム通信インフラストラクチャ、スマートフォンアプリケーションで構成される洗練されたシステムを提供します。
定義された研究開発活動は、深いニューラルネットワーク、知識グラフ、およびマルチモーダル情報融合により、ロボットが災害環境を自律的にナビゲートおよび分析できるようになり、人員のリスクを減らし、応答時間を促進する方法を示しています。
提案されたシステムは、高度なミッション計画、安全監視、および適応タスク実行機能を提供することにより、緊急対応チームを強化します。
さらに、複雑で危険な状況でのリアルタイムの状況認識と運用サポートを保証し、迅速かつ正確な情報収集と調整されたアクションを促進します。

要約(オリジナル)

The increasing complexity of natural disaster incidents demands innovative technological solutions to support first responders in their efforts. This paper introduces the TRIFFID system, a comprehensive technical framework that integrates unmanned ground and aerial vehicles with advanced artificial intelligence functionalities to enhance disaster response capabilities across wildfires, urban floods, and post-earthquake search and rescue missions. By leveraging state-of-the-art autonomous navigation, semantic perception, and human-robot interaction technologies, TRIFFID provides a sophisticated system composed of the following key components: hybrid robotic platform, centralized ground station, custom communication infrastructure, and smartphone application. The defined research and development activities demonstrate how deep neural networks, knowledge graphs, and multimodal information fusion can enable robots to autonomously navigate and analyze disaster environments, reducing personnel risks and accelerating response times. The proposed system enhances emergency response teams by providing advanced mission planning, safety monitoring, and adaptive task execution capabilities. Moreover, it ensures real-time situational awareness and operational support in complex and risky situations, facilitating rapid and precise information collection and coordinated actions.

arxiv情報

著者 Jorgen Cani,Panagiotis Koletsis,Konstantinos Foteinos,Ioannis Kefaloukos,Lampros Argyriou,Manolis Falelakis,Iván Del Pino,Angel Santamaria-Navarro,Martin Čech,Ondřej Severa,Alessandro Umbrico,Francesca Fracasso,AndreA Orlandini,Dimitrios Drakoulis,Evangelos Markakis,Iraklis Varlamis,Georgios Th. Papadopoulos
発行日 2025-02-27 09:07:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | TRIFFID: Autonomous Robotic Aid For Increasing First Responders Efficiency はコメントを受け付けていません

Shared Autonomy for Proximal Teaching

要約

運動スキル学習には、多くの場合、パーソナライズされた指導を提供できる経験豊富な専門家が必要です。
残念ながら、高性能レースなどの特殊なタスクでは、高品質のトレーニングの可用性が制限される可能性があります。
最近のいくつかの作品は、リハビリテーションから外科ロボットのテレ操作まで、タスクの指示を改善するためにAI-ASSISTANCEを活用しています。
ただし、これらの作業は、多くの場合、学生の学習プロセスに関する単純化された仮定を行い、最適な教育戦略を決定する際に、教師の支援がさまざまな個人の能力とどのように相互作用するかをモデル化することに失敗します。
教育心理学からの足場のアイデアに触発され、ユーザーの入力とロボットの自律性を組み合わせるためのフレームワークである共有自律性を活用して、カリキュラムのデザインを支援します。
私たちの重要な洞察は、自律剤からの支援の存在下で学生の行動が改善する方法は、どのサブスキルが学生にとって最も「学習可能」であるか、または近位発達のゾーン内で最も「学習可能」であるかを強調できることです。
これを使用して、共有された自律性を使用して、解釈可能なタスクサブスキルをターゲットとするパーソナライズされた命令を提供する方法です。
ユーザー調査(n = 50)では、カーラ自律運転シミュレーターを使用してサンダーヒルレースウェイパークのシミュレートされた環境で高性能レースを教えているため、Zコーチが各生徒が最初にどのスキルを練習するかを特定するのに役立ち、運転時間、行動、および滑らかさの全体的な改善につながることを示しています。
私たちの仕事は、ますます利用可能になっている半自律能力(たとえば、車両、ロボットなど)が人間のユーザーを支援するだけでなく、それらを *教える *を助けることができることを示しています。

要約(オリジナル)

Motor skill learning often requires experienced professionals who can provide personalized instruction. Unfortunately, the availability of high-quality training can be limited for specialized tasks, such as high performance racing. Several recent works have leveraged AI-assistance to improve instruction of tasks ranging from rehabilitation to surgical robot tele-operation. However, these works often make simplifying assumptions on the student learning process, and fail to model how a teacher’s assistance interacts with different individuals’ abilities when determining optimal teaching strategies. Inspired by the idea of scaffolding from educational psychology, we leverage shared autonomy, a framework for combining user inputs with robot autonomy, to aid with curriculum design. Our key insight is that the way a student’s behavior improves in the presence of assistance from an autonomous agent can highlight which sub-skills might be most “learnable” for the student, or within their Zone of Proximal Development. We use this to design Z-COACH, a method for using shared autonomy to provide personalized instruction targeting interpretable task sub-skills. In a user study (n=50), where we teach high performance racing in a simulated environment of the Thunderhill Raceway Park with the CARLA Autonomous Driving simulator, we show that Z-COACH helps identify which skills each student should first practice, leading to an overall improvement in driving time, behavior, and smoothness. Our work shows that increasingly available semi-autonomous capabilities (e.g. in vehicles, robots) can not only assist human users, but also help *teach* them.

arxiv情報

著者 Megha Srivastava,Reihaneh Iranmanesh,Yuchen Cui,Deepak Gopinath,Emily Sumner,Andrew Silva,Laporsha Dees,Guy Rosman,Dorsa Sadigh
発行日 2025-02-27 09:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Shared Autonomy for Proximal Teaching はコメントを受け付けていません

CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving

要約

軌道計画は、自律的な運転に不可欠であり、複雑な環境での安全で効率的なナビゲーションを確保します。
最近の学習ベースの方法、特に強化学習(RL)は特定のシナリオで有望であることを示していますが、RLプランナーは非効率性のトレーニングと大規模で現実世界の運転シナリオの管理に苦労しています。
この論文では、\ textbf {carplanner}、a \ textbf {c} onsistent \ textbf {a} uto- \ textbf {r} earsission \ textbf {planner}を紹介します。
自動回帰構造により、効率的な大規模なRLトレーニングが可能になり、一貫性の組み込みにより、時間ステップを越えて一貫した時間的一貫性を維持することにより、安定したポリシー学習が保証されます。
さらに、Carplannerは、専門家が誘導する報酬機能と不変視ビューモジュールを備えた世代選択フレームワークを採用し、RLトレーニングを簡素化し、ポリシーパフォーマンスを向上させます。
広範な分析では、提案されたRLフレームワークが、トレーニング効率とパフォーマンス向上の課題に効果的に対処し、自律運転における軌跡計画の有望なソリューションとしてカープレーナーを配置することを実施しています。
私たちの知る限り、私たちは、RLベースのプランナーが、挑戦的な大規模な現実世界のデータセットNuplanでILおよびルールベースの最先端(SOTA)の両方を超えることができることを最初に示しています。
提案されたCarplannerは、この要求の厳しいデータセット内でRL-、IL-、およびルールベースのSOTAアプローチを上回ります。

要約(オリジナル)

Trajectory planning is vital for autonomous driving, ensuring safe and efficient navigation in complex environments. While recent learning-based methods, particularly reinforcement learning (RL), have shown promise in specific scenarios, RL planners struggle with training inefficiencies and managing large-scale, real-world driving scenarios. In this paper, we introduce \textbf{CarPlanner}, a \textbf{C}onsistent \textbf{a}uto-\textbf{r}egressive \textbf{Planner} that uses RL to generate multi-modal trajectories. The auto-regressive structure enables efficient large-scale RL training, while the incorporation of consistency ensures stable policy learning by maintaining coherent temporal consistency across time steps. Moreover, CarPlanner employs a generation-selection framework with an expert-guided reward function and an invariant-view module, simplifying RL training and enhancing policy performance. Extensive analysis demonstrates that our proposed RL framework effectively addresses the challenges of training efficiency and performance enhancement, positioning CarPlanner as a promising solution for trajectory planning in autonomous driving. To the best of our knowledge, we are the first to demonstrate that the RL-based planner can surpass both IL- and rule-based state-of-the-arts (SOTAs) on the challenging large-scale real-world dataset nuPlan. Our proposed CarPlanner surpasses RL-, IL-, and rule-based SOTA approaches within this demanding dataset.

arxiv情報

著者 Dongkun Zhang,Jiaming Liang,Ke Guo,Sha Lu,Qi Wang,Rong Xiong,Zhenwei Miao,Yue Wang
発行日 2025-02-27 09:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving はコメントを受け付けていません

Deep Incremental Model Informed Reinforcement Learning for Continuous Robotic Control

要約

モデルベースの強化学習は、利用可能または学習モデルを使用して、強化学習のデータ効率を改善しようとします。
この作業は、深い増分モデルとサンプル効率の高い連続ロボット制御を実現するためのポリシーを共同で学習するワンステップのルックバックアプローチを提案します。これにより、コントロール理論の知識がモデル学習の難易度を低下させ、効率的なトレーニングを促進します。
具体的には、ワンステップの逆方向データを使用して、ロボット進化モデルの代替構造表現である深い増分モデルを促進し、ロボット運動を正確に予測しますが、サンプルの複雑さは低くなります。
これは、処方されたディープインクリメンタルモデルがモデル学習の難易度をパラメトリックマトリックス学習問題に分解するためです。これは、高次元ロボットアプリケーションに特に有利です。
学習したディープインクリメンタルモデルからの想像上のデータは、サンプル効率を高めるためにトレーニングデータを補完するために使用されます。
ベンチマーク上の比較数値シミュレーション連続ロボット制御のコントロール問題が実施され、提案されたワンステップルックバックアプローチの効率を検証します。

要約(オリジナル)

Model-based reinforcement learning attempts to use an available or learned model to improve the data efficiency of reinforcement learning. This work proposes a one-step lookback approach that jointly learns the deep incremental model and the policy to realize the sample-efficient continuous robotic control, wherein the control-theoretical knowledge is utilized to decrease the model learning difficulty and facilitate efficient training. Specifically, we use one-step backward data to facilitate the deep incremental model, an alternative structured representation of the robotic evolution model, that accurately predicts the robotic movement but with low sample complexity. This is because the formulated deep incremental model degrades the model learning difficulty into a parametric matrix learning problem, which is especially favourable to high-dimensional robotic applications. The imagined data from the learned deep incremental model is used to supplement training data to enhance the sample efficiency. Comparative numerical simulations on benchmark continuous robotics control problems are conducted to validate the efficiency of our proposed one-step lookback approach.

arxiv情報

著者 Cong Li
発行日 2025-02-27 10:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Deep Incremental Model Informed Reinforcement Learning for Continuous Robotic Control はコメントを受け付けていません

Are Transformers Truly Foundational for Robotics?

要約

生成事前に訓練された変圧器(GPTS)は、ロボット工学に革命をもたらすために宣伝されています。
ここでは、彼らの有用性に疑問を呈します。
自律的なロボット工学のGPTは、膨大なと費用のかかる計算、過度のトレーニング時間、および(多くの場合)ワイヤレスコントロールを必要とします。
私たちは、これらの制約のいずれも、小さな昆虫の脳が堅牢な自律性をどのように達成したかと、GPT最新法と対比しています。
ロボット工学におけるGPTの有用性を高めるために生物学から学ぶことができる教訓を強調します。

要約(オリジナル)

Generative Pre-Trained Transformers (GPTs) are hyped to revolutionize robotics. Here we question their utility. GPTs for autonomous robotics demand enormous and costly compute, excessive training times and (often) offboard wireless control. We contrast GPT state of the art with how tiny insect brains have achieved robust autonomy with none of these constraints. We highlight lessons that can be learned from biology to enhance the utility of GPTs in robotics.

arxiv情報

著者 James A. R. Marshall,Andrew B. Barron
発行日 2025-02-27 10:46:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Are Transformers Truly Foundational for Robotics? はコメントを受け付けていません

Collaborative Object Handover in a Robot Crafting Assistant

要約

ロボットは、人々と一緒に作業しており、レストランでお客様に食べ物を届けたり、組立ラインで労働者を支援したりしています。
これらのシナリオには、多くの場合、人とロボットの間のオブジェクトハンドオーバーが含まれます。
安全で効率的な人間ロボットコラボレーション(HRC)を達成するには、ロボットのハンドオーバー戦略に人間のコンテキストを組み込むことが重要です。
したがって、この作業では、自然主義的なクラフトタスクで収集された人間の操作データで訓練された共同ハンドオーバーモデルを開発します。
このモデルのパフォーマンスを評価するために、トレーニングデータセットで交差検証実験と、同じHRCクラフトタスクでユーザー調査を実施します。
自律的なハンドオーバーポリシーのハンドオーバーエピソードとユーザー認識は、人間のテレオ蒸発ハンドオーバーのエピソードと比較されました。
相互検証の実験とユーザーの調査では、自律政策が共同ハンドオーバーを成功裏に達成したことが示されていますが、ヒトの耐動との比較により、さらなる改善の手段が明らかになりました。

要約(オリジナル)

Robots are increasingly working alongside people, delivering food to patrons in restaurants or helping workers on assembly lines. These scenarios often involve object handovers between the person and the robot. To achieve safe and efficient human-robot collaboration (HRC), it is important to incorporate human context in a robot’s handover strategies. Therefore, in this work, we develop a collaborative handover model trained on human teleoperation data collected in a naturalistic crafting task. To evaluate the performance of this model, we conduct cross-validation experiments on the training dataset as well as a user study in the same HRC crafting task. The handover episodes and user perceptions of the autonomous handover policy were compared with those of the human teleoperated handovers. While the cross-validation experiment and user study indicate that the autonomous policy successfully achieved collaborative handovers, the comparison with human teleoperation revealed avenues for further improvements.

arxiv情報

著者 Leimin Tian,Shiyu Xu,Kerry He,Rachel Love,Akansel Cosgun,Dana Kulic
発行日 2025-02-27 11:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Collaborative Object Handover in a Robot Crafting Assistant はコメントを受け付けていません

Multi-Keypoint Affordance Representation for Functional Dexterous Grasping

要約

機能的な器用な握りには、正確な手観察相互作用が必要であり、単純な握りを超えています。
既存のアフォーダンスベースの方法は、主に粗い相互作用領域を予測し、把握姿勢を直接制約することはできず、視覚的知覚と操作の間の切断につながります。
この問題に対処するために、機能的な接点ポイントをローカライズすることにより、タスク駆動型の把握構成を直接エンコードする機能的な器用なグラズピンのマルチキーポイントアフォーダンス表現を提案します。
私たちの方法では、接触誘導マルチキーポイントアフォーダンス(CMKA)を導入し、微細なアフォーダンス特徴抽出のための大きな視覚モデルと組み合わせた弱い監督のための人間の把握体験画像を活用し、マニュアルキーポイント注釈を避けながら一般化を達成します。
さらに、キーポイントベースの把握マトリックス変換(KGT)メソッドを提示し、ハンドキーポイントとオブジェクトの接点間の空間的一貫性を確保し、視覚的知覚と器用なグラッピングアクションの間に直接的なリンクを提供します。
公共の実世界のFAHデータセット、Isaacgymシミュレーション、および挑戦的なロボットタスクに関する実験により、この方法により、アフォーダンスのローカリゼーションの精度、一貫性、目に見えないツールとタスクへの一般化が大幅に改善され、視覚的なアフォーダンス学習と器用なロボット操作の間のギャップが架かることが示されています。
ソースコードとデモビデオは、https://github.com/popeyepxx/mkaで公開されます。

要約(オリジナル)

Functional dexterous grasping requires precise hand-object interaction, going beyond simple gripping. Existing affordance-based methods primarily predict coarse interaction regions and cannot directly constrain the grasping posture, leading to a disconnection between visual perception and manipulation. To address this issue, we propose a multi-keypoint affordance representation for functional dexterous grasping, which directly encodes task-driven grasp configurations by localizing functional contact points. Our method introduces Contact-guided Multi-Keypoint Affordance (CMKA), leveraging human grasping experience images for weak supervision combined with Large Vision Models for fine affordance feature extraction, achieving generalization while avoiding manual keypoint annotations. Additionally, we present a Keypoint-based Grasp matrix Transformation (KGT) method, ensuring spatial consistency between hand keypoints and object contact points, thus providing a direct link between visual perception and dexterous grasping actions. Experiments on public real-world FAH datasets, IsaacGym simulation, and challenging robotic tasks demonstrate that our method significantly improves affordance localization accuracy, grasp consistency, and generalization to unseen tools and tasks, bridging the gap between visual affordance learning and dexterous robotic manipulation. The source code and demo videos will be publicly available at https://github.com/PopeyePxx/MKA.

arxiv情報

著者 Fan Yang,Dongsheng Luo,Wenrui Chen,Jiacheng Lin,Junjie Cai,Kailun Yang,Zhiyong Li,Yaonan Wang
発行日 2025-02-27 11:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | Multi-Keypoint Affordance Representation for Functional Dexterous Grasping はコメントを受け付けていません

AirSLAM: An Efficient and Illumination-Robust Point-Line Visual SLAM System

要約

この論文では、短期的および長期的な照明の課題に取り組むように設計された効率的な視覚的なスラムシステムを紹介します。
当社のシステムは、機能の検出とマッチングのための深い学習手法を、従来のバックエンド最適化方法と組み合わせたハイブリッドアプローチを採用しています。
具体的には、キーポイントと構造ラインを同時に抽出する統一された畳み込みニューラルネットワーク(CNN)を提案します。
これらの機能は、結合され、一致し、三角測量され、結合された方法で最適化されます。
さらに、ビルドマップを再利用する軽量の再局在化パイプラインを導入します。ここでは、キーポイント、ライン、および構造グラフを使用して、クエリフレームをマップと一致させます。
提案されたシステムの実際のロボットへの適用性を高めるために、C ++とNvidia Tensortを使用して、機能の検出と一致ネットワークを展開および加速します。
さまざまなデータセットで実施された広範な実験は、システムが照明に挑戦する環境で他の最先端の視覚スラムシステムよりも優れていることを示しています。
効率評価は、当社のシステムがPCで73Hzの速度で、埋め込みプラットフォームで40Hzのレートで実行できることを示しています。
私たちの実装はオープンソースです:https://github.com/sair-lab/airslam。

要約(オリジナル)

In this paper, we present an efficient visual SLAM system designed to tackle both short-term and long-term illumination challenges. Our system adopts a hybrid approach that combines deep learning techniques for feature detection and matching with traditional backend optimization methods. Specifically, we propose a unified convolutional neural network (CNN) that simultaneously extracts keypoints and structural lines. These features are then associated, matched, triangulated, and optimized in a coupled manner. Additionally, we introduce a lightweight relocalization pipeline that reuses the built map, where keypoints, lines, and a structure graph are used to match the query frame with the map. To enhance the applicability of the proposed system to real-world robots, we deploy and accelerate the feature detection and matching networks using C++ and NVIDIA TensorRT. Extensive experiments conducted on various datasets demonstrate that our system outperforms other state-of-the-art visual SLAM systems in illumination-challenging environments. Efficiency evaluations show that our system can run at a rate of 73Hz on a PC and 40Hz on an embedded platform. Our implementation is open-sourced: https://github.com/sair-lab/AirSLAM.

arxiv情報

著者 Kuan Xu,Yuefan Hao,Shenghai Yuan,Chen Wang,Lihua Xie
発行日 2025-02-27 12:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AirSLAM: An Efficient and Illumination-Robust Point-Line Visual SLAM System はコメントを受け付けていません

FuseGrasp: Radar-Camera Fusion for Robotic Grasping of Transparent Objects

要約

透明なオブジェクトは日常の環境で一般的ですが、それらの明確な物理的特性は、カメラ誘導ロボットアームに大きな課題をもたらします。
現在の研究は、主にカメラのみのアプローチに依存しており、低光環境などの最適ではない状態でしばしば動きます。
この課題に応えて、透明なオブジェクトの操作を強化するように調整された最初のレーダーカメラ融合システムであるFuseGraspを提示します。
Fusegraspは、透明な材料を不透明にし、ロボットアームの正確なモーション制御と組み合わせて、透明オブジェクトの高品質のMMWaveレーダー画像を取得するため、透明な材料を不透明にします。
このシステムは、慎重に設計されたディープニューラルネットワークを採用してレーダーとカメラの画像を融合し、深さの完了を改善し、オブジェクトの成功率を把握します。
それにもかかわらず、透明なオブジェクトのレーダー画像データセットが限られているため、ヒューズグラスを効果的にトレーニングすることは、事実上ではありません。
大規模なRGB-Dデータセットを利用してこの問題に対処し、効果的な2段階のトレーニングアプローチを提案します。最初に透明オブジェクトの大規模なRGB-Dデータセットで排気前のFuseGraspを前に微調整してから、自己構築された小さなRGB-D-RADARデータセットで微調整します。
さらに、副産物として、FuseGraspは、ガラスやプラスチックなどの透明なオブジェクトの組成を決定し、MMWaveレーダーの材料識別能力を活用します。
この識別結果は、グリップ力を適切に調節する際にロボットアームを容易にします。
広範なテストにより、FuseGraspは、透明オブジェクトの深さ再構成と材料識別の精度を大幅に向上させることが明らかになりました。
さらに、実際のロボット試験により、FuseGraspは透明アイテムの取り扱いを著しく強化することが確認されています。
FuseGraspのビデオデモは、https://youtu.be/mwdqv0srsokで入手できます。

要約(オリジナル)

Transparent objects are prevalent in everyday environments, but their distinct physical properties pose significant challenges for camera-guided robotic arms. Current research is mainly dependent on camera-only approaches, which often falter in suboptimal conditions, such as low-light environments. In response to this challenge, we present FuseGrasp, the first radar-camera fusion system tailored to enhance the transparent objects manipulation. FuseGrasp exploits the weak penetrating property of millimeter-wave (mmWave) signals, which causes transparent materials to appear opaque, and combines it with the precise motion control of a robotic arm to acquire high-quality mmWave radar images of transparent objects. The system employs a carefully designed deep neural network to fuse radar and camera imagery, thereby improving depth completion and elevating the success rate of object grasping. Nevertheless, training FuseGrasp effectively is non-trivial, due to limited radar image datasets for transparent objects. We address this issue utilizing large RGB-D dataset, and propose an effective two-stage training approach: we first pre-train FuseGrasp on a large public RGB-D dataset of transparent objects, then fine-tune it on a self-built small RGB-D-Radar dataset. Furthermore, as a byproduct, FuseGrasp can determine the composition of transparent objects, such as glass or plastic, leveraging the material identification capability of mmWave radar. This identification result facilitates the robotic arm in modulating its grip force appropriately. Extensive testing reveals that FuseGrasp significantly improves the accuracy of depth reconstruction and material identification for transparent objects. Moreover, real-world robotic trials have confirmed that FuseGrasp markedly enhances the handling of transparent items. A video demonstration of FuseGrasp is available at https://youtu.be/MWDqv0sRSok.

arxiv情報

著者 Hongyu Deng,Tianfan Xue,He Chen
発行日 2025-02-27 12:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FuseGrasp: Radar-Camera Fusion for Robotic Grasping of Transparent Objects はコメントを受け付けていません