Synthetic Dataset Generation for Autonomous Mobile Robots Using 3D Gaussian Splatting for Vision Training

要約

注釈付きのデータセットは、オブジェクトの検出のためにニューラルネットワークをトレーニングするために重要ですが、それらの手動作成は時間的かつ労働集約的であり、ヒューマンエラーに主観的であり、しばしば多様性が限られています。
この課題は、ロボット工学のドメインで特に顕著であり、多様で動的なシナリオが代表的なデータセットの作成をさらに複雑にします。
これに対処するために、Unreal Engineで注釈付きの合成データを自動的に生成するための新しい方法を提案します。
私たちのアプローチは、迅速な合成データ生成のために、フォトリアリックな3Dガウススプラットを活用しています。
合成データセットは、実際のデータセットのパフォーマンスに匹敵するパフォーマンスを実現しながら、データの生成と注釈に必要な時間を大幅に削減できることを実証します。
さらに、実際のデータと合成データを組み合わせることで、合成データのスケーラビリティが容易になり、実世界の画像の品質を活用することにより、オブジェクト検出パフォーマンスが大幅に向上します。
私たちの知る限り、これは、ロボットサッカーの非常に動的で多様な環境でオブジェクト検出アルゴリズムをトレーニングするための合成データの最初のアプリケーションです。
検証実験では、合成画像で訓練された検出器は、ロボットサッカーマッチシナリオでテストされたときに手動で注釈された実世界画像でトレーニングされた1つで並行して実行されることが明らかになりました。
私たちの方法は、従来のデータセット作成のスケーラブルで包括的な代替品を提供し、労働集約型エラーが発生しやすいマニュアルアノテーションプロセスを排除します。
すべての要素が本質的に知られているシミュレーターでデータセットを生成することにより、正確な注釈を確保しながら、手動の努力を大幅に削減するため、多様でスケーラブルなトレーニングデータを必要とするロボット工学アプリケーションにとって特に価値があります。

要約(オリジナル)

Annotated datasets are critical for training neural networks for object detection, yet their manual creation is time- and labour-intensive, subjective to human error, and often limited in diversity. This challenge is particularly pronounced in the domain of robotics, where diverse and dynamic scenarios further complicate the creation of representative datasets. To address this, we propose a novel method for automatically generating annotated synthetic data in Unreal Engine. Our approach leverages photorealistic 3D Gaussian splats for rapid synthetic data generation. We demonstrate that synthetic datasets can achieve performance comparable to that of real-world datasets while significantly reducing the time required to generate and annotate data. Additionally, combining real-world and synthetic data significantly increases object detection performance by leveraging the quality of real-world images with the easier scalability of synthetic data. To our knowledge, this is the first application of synthetic data for training object detection algorithms in the highly dynamic and varied environment of robot soccer. Validation experiments reveal that a detector trained on synthetic images performs on par with one trained on manually annotated real-world images when tested on robot soccer match scenarios. Our method offers a scalable and comprehensive alternative to traditional dataset creation, eliminating the labour-intensive error-prone manual annotation process. By generating datasets in a simulator where all elements are intrinsically known, we ensure accurate annotations while significantly reducing manual effort, which makes it particularly valuable for robotics applications requiring diverse and scalable training data.

arxiv情報

著者 Aneesh Deogan,Wout Beks,Peter Teurlings,Koen de Vos,Mark van den Brand,Rene van de Molengraft
発行日 2025-06-05 14:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

EDEN: Efficient Dual-Layer Exploration Planning for Fast UAV Autonomous Exploration in Large 3-D Environments

要約

大規模な環境での効率的な自律調査は、計画の高い計算コストと低速操作のために依然として困難です。
この論文では、高速で計算効率の良い二重層探査計画方法を提案します。
私たちの二重層の方法の洞察は、許容可能な長期領域ルーティングを効率的に見つけ、高速で最初のルーティングエリアの領域のターゲットを貪欲に探索することです。
具体的には、提案された方法では、近似アルゴリズムを介した長期エリアルーティングを見つけて、大規模な環境でのリアルタイム計画を確保します。
次に、最低の曲率包装コストを持つ最初のルーティング領域の視点は、急激なターンモーションによって引き起こされる減速を効果的に減らすことができ、次の探査ターゲットとして選択されます。
探査をさらに高速化するために、探査の継続性を高めるために、積極的で安全な探索指向の軌跡を採用します。
提案された方法は、挑戦的なシミュレーション環境における最先端の方法と比較されます。
結果は、提案された方法が、探査効率、計算コスト、および軌道速度の観点から他の方法よりも優れていることを示しています。
また、提案された方法の有効性を検証するために、実際の実験を実施します。
コードはオープンソースになります。

要約(オリジナル)

Efficient autonomous exploration in large-scale environments remains challenging due to the high planning computational cost and low-speed maneuvers. In this paper, we propose a fast and computationally efficient dual-layer exploration planning method. The insight of our dual-layer method is efficiently finding an acceptable long-term region routing and greedily exploring the target in the region of the first routing area with high speed. Specifically, the proposed method finds the long-term area routing through an approximate algorithm to ensure real-time planning in large-scale environments. Then, the viewpoint in the first routing region with the lowest curvature-penalized cost, which can effectively reduce decelerations caused by sharp turn motions, will be chosen as the next exploration target. To further speed up the exploration, we adopt an aggressive and safe exploration-oriented trajectory to enhance exploration continuity. The proposed method is compared to state-of-the-art methods in challenging simulation environments. The results show that the proposed method outperforms other methods in terms of exploration efficiency, computational cost, and trajectory speed. We also conduct real-world experiments to validate the effectiveness of the proposed method. The code will be open-sourced.

arxiv情報

著者 Qianli Dong,Xuebo Zhang,Shiyong Zhang,Ziyu Wang,Zhe Ma,Haobo Xi
発行日 2025-06-05 14:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Reactive Collision Avoidance for Safe Agile Navigation

要約

反応性衝突回避は、複雑で動的な環境をナビゲートするアジャイルロボットに不可欠であり、リアルタイムの障害物反応を可能にします。
ただし、このタスクは、従来の方法が個別に処理されることが多く、複合エラーと遅延をもたらすことが多い、知覚、計画、および制御の密接な統合が必要であるため、本質的に困難です。
このホワイトペーパーでは、これらのタスクを統合した単一の反応的フレームワークに統合する新しいアプローチを紹介します。
私たちの方法は、非線形モデルの予測制御と適応制御バリア関数を組み合わせて、知覚駆動型の制約をリアルタイムの計画と制御に直接リンクします。
制約は、ニューラルネットワークを使用してノイズの多いRGB-Dデータを改良し、深さの精度を高め、最小衝突時間とともにポイントを選択して最も差し迫った脅威を優先することにより決定されます。
安全性と俊敏性のバランスを維持するために、ヒューリスティックは最適化プロセスを動的に調整し、リアルタイムで過剰な制約を防ぎます。
アジャイル象限を使用した広範な実験は、環境固有のチューニングや明示的なマッピングを必要とせずに、多様な屋内および屋外環境にわたる効果的な衝突回避を示しています。

要約(オリジナル)

Reactive collision avoidance is essential for agile robots navigating complex and dynamic environments, enabling real-time obstacle response. However, this task is inherently challenging because it requires a tight integration of perception, planning, and control, which traditional methods often handle separately, resulting in compounded errors and delays. This paper introduces a novel approach that unifies these tasks into a single reactive framework using solely onboard sensing and computing. Our method combines nonlinear model predictive control with adaptive control barrier functions, directly linking perception-driven constraints to real-time planning and control. Constraints are determined by using a neural network to refine noisy RGB-D data, enhancing depth accuracy, and selecting points with the minimum time-to-collision to prioritize the most immediate threats. To maintain a balance between safety and agility, a heuristic dynamically adjusts the optimization process, preventing overconstraints in real time. Extensive experiments with an agile quadrotor demonstrate effective collision avoidance across diverse indoor and outdoor environments, without requiring environment-specific tuning or explicit mapping.

arxiv情報

著者 Alessandro Saviolo,Niko Picello,Jeffrey Mao,Rishabh Verma,Giuseppe Loianno
発行日 2025-06-05 14:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Collision Induced Binding and Transport of Shape Changing Robot Pairs

要約

実験で報告し、局所的に反発的な衝突を受けている形状変化ロボットの動的に結合したペアの自発的な形成をシミュレーションします。
これらの物理的な「グライダー」は、個別にうねる3つのリンク2モーターロボットのアンサンブルから堅牢に現れ、複数のロボット寸法のために何百ものうねりや移動に縛られたままになります。
グライダーは2つの異なる結合対称性で発生し、広範囲の角度振動範囲で形成されます。
このパラメーターは、形成確率と翻訳特性に影響する最大凹面を設定します。
シミュレーションにおけるダイナミクスの分析により、効果的な動的魅力のメカニズムが明らかになりました。これは、適切に指向されたタイミングの反発相互作用の出現した相互作用の結果です。
触覚センシングは、凹面変調を介して短命の立体構造を安定させます。

要約(オリジナル)

We report in experiment and simulation the spontaneous formation of dynamically bound pairs of shape changing robots undergoing locally repulsive collisions. These physical `gliders’ robustly emerge from an ensemble of individually undulating three-link two-motor robots and can remain bound for hundreds of undulations and travel for multiple robot dimensions. Gliders occur in two distinct binding symmetries and form over a wide range of angular oscillation extent. This parameter sets the maximal concavity which influences formation probability and translation characteristics. Analysis of dynamics in simulation reveals the mechanism of effective dynamical attraction — a result of the emergent interplay of appropriately oriented and timed repulsive interactions. Tactile sensing stabilizes the short-lived conformation via concavity modulation.

arxiv情報

著者 Akash Vardhan,Ram Avinery,Hosain Bagheri,Velin Kojohourav,Shengkai Li,Hridesh Kedia,Tianyu Wang,Daniel Soto,Kurt Wiesenfeld,Daniel I. Goldman
発行日 2025-06-05 14:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, nlin.AO | コメントする

Whole-Body Constrained Learning for Legged Locomotion via Hierarchical Optimization

要約

Renforce Learning(RL)は、さまざまな挑戦的な環境にわたる脚のある移動の印象的なパフォーマンスを実証しています。
ただし、SIMからのギャップと説明の欠如により、現実の世界に展開された制約のないRLポリシーは、低摩擦環境での関節の衝突、過剰なトルク、または足の滑りなど、避けられない安全性の問題に依然として悩まされています。
これらの問題は、惑星探査、原子力施設の検査、深海事業など、厳格な安全要件を伴うミッションでの使用法を制限しています。
このペーパーでは、階層的最適化ベースの全身フォロワーを設計します。これにより、ハードとソフトの両方の制約がRLフレームワークに統合され、安全性の保証が改善されてロボットが動きます。
モデルベースの制御の利点を活用すると、当社のアプローチにより、トレーニングまたは展開中のさまざまなタイプのハードおよびソフト制約の定義が可能になります。これにより、ポリシーの微調整が可能になり、SIMからリアルへの転送の課題が緩和されます。
一方、複雑な非構造化環境での移動を扱うとき、RLの堅牢性を保持します。
導入された制約を伴う訓練されたポリシーは、六角形のロボットに展開され、雪に覆われた斜面や階段など、さまざまな屋外環境でテストされ、アプローチの大きな横断性と安全性を示しています。

要約(オリジナル)

Reinforcement learning (RL) has demonstrated impressive performance in legged locomotion over various challenging environments. However, due to the sim-to-real gap and lack of explainability, unconstrained RL policies deployed in the real world still suffer from inevitable safety issues, such as joint collisions, excessive torque, or foot slippage in low-friction environments. These problems limit its usage in missions with strict safety requirements, such as planetary exploration, nuclear facility inspection, and deep-sea operations. In this paper, we design a hierarchical optimization-based whole-body follower, which integrates both hard and soft constraints into RL framework to make the robot move with better safety guarantees. Leveraging the advantages of model-based control, our approach allows for the definition of various types of hard and soft constraints during training or deployment, which allows for policy fine-tuning and mitigates the challenges of sim-to-real transfer. Meanwhile, it preserves the robustness of RL when dealing with locomotion in complex unstructured environments. The trained policy with introduced constraints was deployed in a hexapod robot and tested in various outdoor environments, including snow-covered slopes and stairs, demonstrating the great traversability and safety of our approach.

arxiv情報

著者 Haoyu Wang,Ruyi Zhou,Liang Ding,Tie Liu,Zhelin Zhang,Peng Xu,Haibo Gao,Zongquan Deng
発行日 2025-06-05 15:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Learning Rock Pushability on Rough Planetary Terrain

要約

構造化されていない環境でのモバイルナビゲーションのコンテキストでは、主要なアプローチは障害の回避を伴います。
一般的なパス計画アルゴリズムは、意図したパスから無期限に逸脱し、障害物が空間的に残された後、ルートの最も近いポイントに戻ることを条件としています。
ただし、複数のエージェントが繰り返し使用するパス上の障害を回避すると、長期的な効率を妨げ、アクティブなパス計画システムに永続的な依存につながる可能性があります。
この研究では、モバイルロボットの上に取り付けられたロボットマニピュレーターの操作能力を活用することにより、非構造化環境でのモバイルナビゲーションへの代替アプローチを提案します。
提案されたフレームワークは、外部受容および固有受容のフィードバックを統合して、障害物のプッシュアフォーダンスを評価し、回避ではなく再配置を促進します。
予備的な視覚推定では、障害物と依存している表面の両方の特性を考慮していますが、プッシュアフォーダンス推定モジュールは、ガイダンス信号としてロボットマニピュレーターを介して障害物と相互作用することによって得られる力フィードバックを利用します。
ナビゲーションアプローチの目的は、自律的なインフラ開発や火星の表面など、自律的なインフラ開発が不可欠な環境で艦隊が費やす全体の時間を短縮することにより、複数のエージェントが長期間にわたって利用するルートの効率を高めることです。

要約(オリジナル)

In the context of mobile navigation in unstructured environments, the predominant approach entails the avoidance of obstacles. The prevailing path planning algorithms are contingent upon deviating from the intended path for an indefinite duration and returning to the closest point on the route after the obstacle is left behind spatially. However, avoiding an obstacle on a path that will be used repeatedly by multiple agents can hinder long-term efficiency and lead to a lasting reliance on an active path planning system. In this study, we propose an alternative approach to mobile navigation in unstructured environments by leveraging the manipulation capabilities of a robotic manipulator mounted on top of a mobile robot. Our proposed framework integrates exteroceptive and proprioceptive feedback to assess the push affordance of obstacles, facilitating their repositioning rather than avoidance. While our preliminary visual estimation takes into account the characteristics of both the obstacle and the surface it relies on, the push affordance estimation module exploits the force feedback obtained by interacting with the obstacle via a robotic manipulator as the guidance signal. The objective of our navigation approach is to enhance the efficiency of routes utilized by multiple agents over extended periods by reducing the overall time spent by a fleet in environments where autonomous infrastructure development is imperative, such as lunar or Martian surfaces.

arxiv情報

著者 Tuba Girgin,Emre Girgin,Cagri Kilic
発行日 2025-06-05 15:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

Realizing Text-Driven Motion Generation on NAO Robot: A Reinforcement Learning-Optimized Control Pipeline

要約

ヒューマノイドロボットの人間のモーションリターゲティングは、模倣のために人間のモーションデータをロボットに転送し、重要な課題を提示しますが、実際のアプリケーションにかなりの可能性を提供します。
従来、このプロセスは、ポーズ推定またはモーションキャプチャシステムを通じてキャプチャされた人間のデモに依存しています。
この論文では、ヒューマノイドへの人間の動きをマッピングするためのテキスト駆動型のアプローチを探ります。
生成された運動表現とヒューマノイドロボットの運動学的制約との間の固有の矛盾に対処するために、ノルムポジションと回転損失(NPR損失)に基づいて角度信号ネットワークを提案します。
ジョイントアングルを生成します。これは、強化学習ベースの全身関節モーションコントロールポリシーへの入力として機能します。
このポリシーにより、実行中のロボットの安定性を維持しながら、生成された動きの追跡が保証されます。
私たちの実験結果は、このアプローチの有効性を示しており、テキスト駆動型の人間の動きを実際のヒューマノイドロボットNAOに正常に転送します。

要約(オリジナル)

Human motion retargeting for humanoid robots, transferring human motion data to robots for imitation, presents significant challenges but offers considerable potential for real-world applications. Traditionally, this process relies on human demonstrations captured through pose estimation or motion capture systems. In this paper, we explore a text-driven approach to mapping human motion to humanoids. To address the inherent discrepancies between the generated motion representations and the kinematic constraints of humanoid robots, we propose an angle signal network based on norm-position and rotation loss (NPR Loss). It generates joint angles, which serve as inputs to a reinforcement learning-based whole-body joint motion control policy. The policy ensures tracking of the generated motions while maintaining the robot’s stability during execution. Our experimental results demonstrate the efficacy of this approach, successfully transferring text-driven human motion to a real humanoid robot NAO.

arxiv情報

著者 Zihan Xu,Mengxian Hu,Kaiyan Xiao,Qin Fang,Chengju Liu,Qijun Chen
発行日 2025-06-05 15:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

VertiSelector: Automatic Curriculum Learning for Wheeled Mobility on Vertically Challenging Terrain

要約

強化学習(RL)は、シミュレート対エンドの試行錯誤の学習体験により、複雑な運動力学モデリング、計画、および制御を回避することにより、極端なオフロードモビリティを可能にする可能性があります。
ただし、ほとんどのRLメソッドは、手動で設計された大量のシミュレーション環境でトレーニングし、現実の世界に一般化するのに苦労する場合、サンプルが不足しています。
これらの問題に対処するために、トレーニング地域を選択的にサンプリングすることにより、学習効率と一般化を強化するために設計された自動カリキュラム学習フレームワークであるVertiselector(VS)を紹介します。
VSは、再検討時により高い時間差(TD)エラーで垂直に挑戦する地形を優先し、それにより、ロボットが進化する機能の端で学習できるようにします。
サンプリングフォーカスを動的に調整することにより、Chrono Multi-Physicsエンジンに基づいて構築されたVW-Chronoシミュレーター内のサンプル効率と一般化を大幅に向上させます。
さらに、VERTI-4ホイーラープラットフォームでVSを使用して、シミュレーションと物理的結果を提供します。
これらの結果は、VSがトレーニング中に効率的にサンプリングし、現実の世界に堅牢に一般化することにより、成功率に関して23.08%の改善を達成できることを示しています。

要約(オリジナル)

Reinforcement Learning (RL) has the potential to enable extreme off-road mobility by circumventing complex kinodynamic modeling, planning, and control by simulated end-to-end trial-and-error learning experiences. However, most RL methods are sample-inefficient when training in a large amount of manually designed simulation environments and struggle at generalizing to the real world. To address these issues, we introduce VertiSelector (VS), an automatic curriculum learning framework designed to enhance learning efficiency and generalization by selectively sampling training terrain. VS prioritizes vertically challenging terrain with higher Temporal Difference (TD) errors when revisited, thereby allowing robots to learn at the edge of their evolving capabilities. By dynamically adjusting the sampling focus, VS significantly boosts sample efficiency and generalization within the VW-Chrono simulator built on the Chrono multi-physics engine. Furthermore, we provide simulation and physical results using VS on a Verti-4-Wheeler platform. These results demonstrate that VS can achieve 23.08% improvement in terms of success rate by efficiently sampling during training and robustly generalizing to the real world.

arxiv情報

著者 Tong Xu,Chenhui Pan,Xuesu Xiao
発行日 2025-06-05 15:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Evaluating Robustness of Deep Reinforcement Learning for Autonomous Surface Vehicle Control in Field Tests

要約

自律的な地表車(ASV)の深部補強学習(DRL)の大幅な進歩にもかかわらず、特に外乱の下での現実世界条件での堅牢性は、十分に調査されていないままです。
この論文では、さまざまな摂動の下で浮遊廃棄物を捕獲するように設計されたDRLベースのエージェントの回復力を評価します。
ドメインのランダム化を使用してエージェントを訓練し、現実世界のフィールドテストでのパフォーマンスを評価し、非対称の抗力や中心外のペイロードなどの予期しない妨害を処理する能力を評価します。
シミュレーションと現実世界の両方の実験の両方で、これらの摂動に基づくエージェントのパフォーマンスを評価し、パフォーマンスの劣化を定量化し、MPCベースラインに対してベンチマークを付けます。
結果は、重大な乱れにもかかわらず、DRLエージェントが確実に機能することを示しています。
実装のオープンソースリリースに加えて、DRLベースのASVコントローラーを展開するための効果的なトレーニング戦略、現実世界の課題、および実用的な考慮事項に関する洞察を提供します。

要約(オリジナル)

Despite significant advancements in Deep Reinforcement Learning (DRL) for Autonomous Surface Vehicles (ASVs), their robustness in real-world conditions, particularly under external disturbances, remains insufficiently explored. In this paper, we evaluate the resilience of a DRL-based agent designed to capture floating waste under various perturbations. We train the agent using domain randomization and evaluate its performance in real-world field tests, assessing its ability to handle unexpected disturbances such as asymmetric drag and an off-center payload. We assess the agent’s performance under these perturbations in both simulation and real-world experiments, quantifying performance degradation and benchmarking it against an MPC baseline. Results indicate that the DRL agent performs reliably despite significant disturbances. Along with the open-source release of our implementation, we provide insights into effective training strategies, real-world challenges, and practical considerations for deploying DRLbased ASV controllers.

arxiv情報

著者 Luis F. W. Batista,Stéphanie Aravecchia,Seth Hutchinson,Cédric Pradalier
発行日 2025-06-05 15:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping

要約

3Dロボット操作の最近の進歩により、日常のオブジェクトの把握が改善されましたが、深さの検知の制限により、透明で鏡面の素材が依然として困難なままです。
いくつかの3D再構成と深さ完了アプローチはこれらの課題に対処しますが、セットアップの複雑さまたは限られた観察情報の利用に苦しんでいます。
これに対処するために、シングルビュー3Dオブジェクト再構成アプローチの力を活用するために、単一ビューの観察から透明で鏡面オブジェクトのロボット把握を可能にするトレーニングフリーフレームワークSR3Dを提案します。
具体的には、シングルビューRGBおよび深度画像が与えられたSR3Dは、最初に外部視覚モデルを使用して、RGB画像に基づいて3D再構成されたオブジェクトメッシュを生成します。
次に、重要なアイデアは、3Dオブジェクトのポーズとスケールを決定して、再構築されたオブジェクトを元の深さ破損した3Dシーンに正確にローカライズすることです。
したがって、ビューマッチングおよびキーポイントマッチングメカニズムを提案します。これは、観察中の2Dおよび3Dの固有のセマンティック情報と幾何学的情報の両方を活用して、シーン内のオブジェクトの3D状態を決定し、それによって効果的な把持検出のために正確な3D深度マップを再構築します。
シミュレーションと現実世界の両方での実験は、SR3Dの再構築効果を示しています。

要約(オリジナル)

Recent advancements in 3D robotic manipulation have improved grasping of everyday objects, but transparent and specular materials remain challenging due to depth sensing limitations. While several 3D reconstruction and depth completion approaches address these challenges, they suffer from setup complexity or limited observation information utilization. To address this, leveraging the power of single view 3D object reconstruction approaches, we propose a training free framework SR3D that enables robotic grasping of transparent and specular objects from a single view observation. Specifically, given single view RGB and depth images, SR3D first uses the external visual models to generate 3D reconstructed object mesh based on RGB image. Then, the key idea is to determine the 3D object’s pose and scale to accurately localize the reconstructed object back into its original depth corrupted 3D scene. Therefore, we propose view matching and keypoint matching mechanisms,which leverage both the 2D and 3D’s inherent semantic and geometric information in the observation to determine the object’s 3D state within the scene, thereby reconstructing an accurate 3D depth map for effective grasp detection. Experiments in both simulation and real world show the reconstruction effectiveness of SR3D.

arxiv情報

著者 Mingxu Zhang,Xiaoqi Li,Jiahui Xu,Kaichen Zhou,Hojin Bae,Yan Shen,Chuyan Xiong,Jiaming Liu,Hao Dong
発行日 2025-06-05 15:36:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする