Push-Grasp Policy Learning Using Equivariant Models and Grasp Score Optimization

要約

散乱した環境における目標条件付きロボット把持は、周囲の物体によるオクルージョンのために目標物体への直接アクセスが妨げられるため、依然として困難な問題である。この問題を軽減するための有望な解決策は、押し出しと把持のポリシーを組み合わせることであり、目標物検索を容易にするためにシーンの能動的な再配置を可能にする。しかしながら、既存の手法は、このようなタスクに内在する豊富な幾何学的構造を見落とすことが多く、複雑で激しく乱雑なシナリオにおける有効性を制限している。この問題に対処するために、我々は等変量押把ネットワーク(Equivariant Push-Grasp Network)を提案する。(1)SE(2)-不等変性を利用することで、押しと把持の両方の性能を向上させること、(2)把持スコア最適化に基づく学習戦略により、共同学習プロセスを単純化すること、である。実験の結果、本手法は強力なベースラインと比較して、シミュレーションで49%、実世界シナリオで35%の把持成功率の向上を示し、押し把持方針学習における大きな進歩を示す。

要約(オリジナル)

Goal-conditioned robotic grasping in cluttered environments remains a challenging problem due to occlusions caused by surrounding objects, which prevent direct access to the target object. A promising solution to mitigate this issue is combining pushing and grasping policies, enabling active rearrangement of the scene to facilitate target retrieval. However, existing methods often overlook the rich geometric structures inherent in such tasks, thus limiting their effectiveness in complex, heavily cluttered scenarios. To address this, we propose the Equivariant Push-Grasp Network, a novel framework for joint pushing and grasping policy learning. Our contributions are twofold: (1) leveraging SE(2)-equivariance to improve both pushing and grasping performance and (2) a grasp score optimization-based training strategy that simplifies the joint learning process. Experimental results show that our method improves grasp success rates by 49% in simulation and by 35% in real-world scenarios compared to strong baselines, representing a significant advancement in push-grasp policy learning.

arxiv情報

著者 Boce Hu,Heng Tian,Dian Wang,Haojie Huang,Xupeng Zhu,Robin Walters,Robert Platt
発行日 2025-04-03 22:00:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Push-Grasp Policy Learning Using Equivariant Models and Grasp Score Optimization はコメントを受け付けていません

Statics of continuum planar grasping

要約

タコの腕やゾウの体幹のような生物学的付属器官から着想を得た連続体ロボット把持は、物体操作に多用途かつ適応的なアプローチを提供する。従来の剛体把持とは異なり、連続体ロボットは、ロバストで器用な把持を実現するために、分散コンプライアンスと全身接触を活用する。本論文では、平面物体との連続接触の静力学を解析するための制御理論的枠組みを提示する。物体の静的平衡の支配方程式を線形制御系として定式化し、分散接触力を制御入力として作用させる。把持性能を最適化するために、静的把持を達成するために必要な接触力を最小化する制約付き最適制御問題が提起され、ポントリャギン最大原理を用いて解が導出される。さらに、2つの最適化問題が導入される:(i)連続体の場合の(剛体)把持品質メトリックを一般化した、特定の把持の品質に尺度を割り当てる問題、および(ii)連続体把持品質を最大化する最良の把持構成を求める問題。また、我々の方法を明らかにするために、いくつかの数値結果も提供する。

要約(オリジナル)

Continuum robotic grasping, inspired by biological appendages such as octopus arms and elephant trunks, provides a versatile and adaptive approach to object manipulation. Unlike conventional rigid-body grasping, continuum robots leverage distributed compliance and whole-body contact to achieve robust and dexterous grasping. This paper presents a control-theoretic framework for analyzing the statics of continuous contact with a planar object. The governing equations of static equilibrium of the object are formulated as a linear control system, where the distributed contact forces act as control inputs. To optimize the grasping performance, a constrained optimal control problem is posed to minimize contact forces required to achieve a static grasp, with solutions derived using the Pontryagin Maximum Principle. Furthermore, two optimization problems are introduced: (i) for assigning a measure to the quality of a particular grasp, which generalizes a (rigid-body) grasp quality metric in the continuum case, and (ii) for finding the best grasping configuration that maximizes the continuum grasp quality. Several numerical results are also provided to elucidate our methods.

arxiv情報

著者 Udit Halder
発行日 2025-04-03 22:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Statics of continuum planar grasping はコメントを受け付けていません

VL-TGS: Trajectory Generation and Selection using Vision Language Models in Mapless Outdoor Environments

要約

本論文では、人間中心の実環境における地図なし屋外ナビゲーションのためのマルチモーダル軌道生成・選択アルゴリズムを紹介する。このような環境には、横断歩道、芝生、縁石などの豊富な特徴が含まれており、これらは人間には容易に解釈できるが、移動ロボットには解釈できない。我々は、(1)環境特有のトラバース可能性制約を満たし、(2)横断歩道や歩道などをナビゲートしながら人間のような経路を生成する、適切な軌道を計算することを目的とする。我々の定式化では、グローバルナビゲーションのための複数の候補軌道を生成するために、トラバサビリティ制約で強化された条件付き変分オートエンコーダ(CVAE)生成モデルを用いる。我々は視覚的プロンプティングアプローチを開発し、視覚言語モデル(VLM)のゼロショット能力である意味理解と論理的推論を活用して、タスクに関する文脈情報を与えられた最適な軌道を選択する。我々は、車輪付きロボットを用いて、様々な屋外シーンで本手法を評価し、他のグローバルナビゲーションアルゴリズムと性能を比較する。実際に、4つの異なる屋外ナビゲーションシナリオにおいて、トラバース可能性制約を満足する平均20.81%、人間のようなナビゲーションの観点から28.51%の改善が観察された。

要約(オリジナル)

We present a multi-modal trajectory generation and selection algorithm for real-world mapless outdoor navigation in human-centered environments. Such environments contain rich features like crosswalks, grass, and curbs, which are easily interpretable by humans, but not by mobile robots. We aim to compute suitable trajectories that (1) satisfy the environment-specific traversability constraints and (2) generate human-like paths while navigating on crosswalks, sidewalks, etc. Our formulation uses a Conditional Variational Autoencoder (CVAE) generative model enhanced with traversability constraints to generate multiple candidate trajectories for global navigation. We develop a visual prompting approach and leverage the Visual Language Model’s (VLM) zero-shot ability of semantic understanding and logical reasoning to choose the best trajectory given the contextual information about the task. We evaluate our method in various outdoor scenes with wheeled robots and compare the performance with other global navigation algorithms. In practice, we observe an average improvement of 20.81% in satisfying traversability constraints and 28.51% in terms of human-like navigation in four different outdoor navigation scenarios.

arxiv情報

著者 Daeun Song,Jing Liang,Xuesu Xiao,Dinesh Manocha
発行日 2025-04-04 00:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | VL-TGS: Trajectory Generation and Selection using Vision Language Models in Mapless Outdoor Environments はコメントを受け付けていません

The Use of Gaze-Derived Confidence of Inferred Operator Intent in Adjusting Safety-Conscious Haptic Assistance

要約

危険な状況下で人間が直接作業を行うことは必ずしも可能ではなく、遠隔操作ロボットによる遠隔作業が増加している。しかし、遠隔操作は、触覚を含むいくつかの感覚からのフィードバックが欠落していることや、オペレータに提示される映像フィードバックに奥行きがないことなどにより、オペレータがロボットとの間に断絶を感じるため、困難である。この問題を克服するために、提案システムは、操作者の意図を能動的に推測し、予測された意図に基づいて支援を提供する。さらに、推論された意図の信頼度を計算する新しい手法により、ヒューマン・イン・ザ・ループ制御を修正する。操作者の視線は、ロボットによる操作を開始する前に、直感的に対象を示すために採用される。ポテンシャルフィールド法を用いて、意図されたターゲットに向かう誘導力を提供し、安全境界によって損傷のリスクを低減する。操作者の意図に対する信頼度に基づいてこれらのアシストを変更することで、より自然な制御が可能となり、ロボットは人間の主人を直感的に理解することができる。初期検証の結果、システムは精度、実行時間を向上させ、オペレータのミスを減らす能力を示している。

要約(オリジナル)

Humans directly completing tasks in dangerous or hazardous conditions is not always possible where these tasks are increasingly be performed remotely by teleoperated robots. However, teleoperation is difficult since the operator feels a disconnect with the robot caused by missing feedback from several senses, including touch, and the lack of depth in the video feedback presented to the operator. To overcome this problem, the proposed system actively infers the operator’s intent and provides assistance based on the predicted intent. Furthermore, a novel method of calculating confidence in the inferred intent modifies the human-in-the-loop control. The operator’s gaze is employed to intuitively indicate the target before the manipulation with the robot begins. A potential field method is used to provide a guiding force towards the intended target, and a safety boundary reduces risk of damage. Modifying these assistances based on the confidence level in the operator’s intent makes the control more natural, and gives the robot an intuitive understanding of its human master. Initial validation results show the ability of the system to improve accuracy, execution time, and reduce operator error.

arxiv情報

著者 Jeremy D. Webb,Michael Bowman,Songpo Li,Xiaoli Zhang
発行日 2025-04-04 00:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.HC, cs.RO | The Use of Gaze-Derived Confidence of Inferred Operator Intent in Adjusting Safety-Conscious Haptic Assistance はコメントを受け付けていません

FoundationStereo: Zero-Shot Stereo Matching

要約

ディープステレオマッチングでは、ドメインごとの微調整により、ベンチマークデータセットで優れた性能を発揮するために、多大な進歩がなされてきた。しかしながら、他のコンピュータビジョンタスクにおける基礎モデルの特徴である強力なゼロショット汎化を達成することは、ステレオマッチングにおいては依然として困難である。我々は、強いゼロショット汎化を達成するように設計された、ステレオ奥行き推定のための基礎モデルであるFoundationStereoを紹介する。この目的のために、我々はまず、大きな多様性と高いフォトリアリズムを特徴とする大規模な(1Mステレオペア)合成訓練データセットを構築し、次いで、曖昧なサンプルを除去するための自動セルフキュレーションパイプラインを構築する。次に、シミュレートとリアルのギャップを緩和するために、ビジョン基礎モデルから豊富な単眼プリオールを適応させるサイドチューニング特徴バックボーンや、効果的なコストボリュームフィルタリングのための長距離コンテキスト推論など、スケーラビリティを向上させるためのネットワークアーキテクチャコンポーネントを設計する。これらのコンポーネントを組み合わせることで、ドメイン間の強いロバスト性と精度を実現し、ゼロショットステレオ奥行き推定における新たな標準を確立します。プロジェクトページ: https://nvlabs.github.io/FoundationStereo/

要約(オリジナル)

Tremendous progress has been made in deep stereo matching to excel on benchmark datasets through per-domain fine-tuning. However, achieving strong zero-shot generalization – a hallmark of foundation models in other computer vision tasks – remains challenging for stereo matching. We introduce FoundationStereo, a foundation model for stereo depth estimation designed to achieve strong zero-shot generalization. To this end, we first construct a large-scale (1M stereo pairs) synthetic training dataset featuring large diversity and high photorealism, followed by an automatic self-curation pipeline to remove ambiguous samples. We then design a number of network architecture components to enhance scalability, including a side-tuning feature backbone that adapts rich monocular priors from vision foundation models to mitigate the sim-to-real gap, and long-range context reasoning for effective cost volume filtering. Together, these components lead to strong robustness and accuracy across domains, establishing a new standard in zero-shot stereo depth estimation. Project page: https://nvlabs.github.io/FoundationStereo/

arxiv情報

著者 Bowen Wen,Matthew Trepte,Joseph Aribido,Jan Kautz,Orazio Gallo,Stan Birchfield
発行日 2025-04-04 00:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | FoundationStereo: Zero-Shot Stereo Matching はコメントを受け付けていません

Distributed Resilience-Aware Control in Multi-Robot Networks

要約

誤動作するエージェントが存在するマルチロボットシステムにおいて、回復力のあるコンセンサスを確保することは、既存のネットワークの回復力特性の多くが本質的に組合せ的であり、グローバルに定義されているため、依然として課題となっている。これまでの研究では、マルチロボットネットワークのレジリエンスを強化または維持するための制御則が提案されているが、それらは多くの場合、既知のレジリエンス特性を持つ固定されたトポロジーを前提としているか、グローバルな状態知識を必要としている。これらの仮定は、物理的に制約のある環境、安全性と回復力の要求が相反する環境、あるいは、誤動作をするエージェントが共有情報を破損する環境では、現実的でない可能性がある。本研究では、各ロボットが局所的に利用可能な情報のみを用いて、固定されたトポロジーのない航行中に弾力的なコンセンサスと安全性を保証することを可能にする分散制御則を提案する。そのために、時変ネットワークにおけるレジリエントなコンセンサスのための新たな十分条件を、不作法なエージェントや正常なエージェントの度合いに基づいて確立する。この条件を用いて、制御障壁関数(CBF)に基づく制御器を設計し、グローバルな状態や他の全てのロボットの制御行動の推定を必要とせずに、弾力的なコンセンサスと衝突回避を保証する。最後に、本手法をシミュレーションにより検証する。

要約(オリジナル)

Ensuring resilient consensus in multi-robot systems with misbehaving agents remains a challenge, as many existing network resilience properties are inherently combinatorial and globally defined. While previous works have proposed control laws to enhance or preserve resilience in multi-robot networks, they often assume a fixed topology with known resilience properties, or require global state knowledge. These assumptions may be impractical in physically-constrained environments, where safety and resilience requirements are conflicting, or when misbehaving agents corrupt the shared information. In this work, we propose a distributed control law that enables each robot to guarantee resilient consensus and safety during its navigation without fixed topologies using only locally available information. To this end, we establish a new sufficient condition for resilient consensus in time-varying networks based on the degree of non-misbehaving or normal agents. Using this condition, we design a Control Barrier Function (CBF)-based controller that guarantees resilient consensus and collision avoidance without requiring estimates of global state and/or control actions of all other robots. Finally, we validate our method through simulations.

arxiv情報

著者 Haejoon Lee,Dimitra Panagou
発行日 2025-04-04 02:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Distributed Resilience-Aware Control in Multi-Robot Networks はコメントを受け付けていません

GraphSeg: Segmented 3D Representations via Graph Edge Addition and Contraction

要約

非構造化環境で動作するロボットは、多くの場合、正確で一貫性のあるオブジェクトレベルの表現を必要とする。これには通常、ロボットの周囲から個々のオブジェクトをセグメンテーションする必要がある。Segment Anything (SAM)のような最近の大規模モデルは、2D画像セグメンテーションにおいて強力な性能を発揮する。これらの進歩は、物理的な3次元世界での性能には直接反映されず、オブジェクトを過剰にセグメンテーションしたり、ビュー間で一貫したマスク対応を生成できないことが多い。本論文では、奥行き情報のない環境の疎な2D画像から、一貫性のある3Dオブジェクトセグメンテーションを生成するフレームワーク、GraphSegを紹介する。GraphSegはグラフにエッジを追加し、2つの対応グラフを構築する。1つは2Dピクセルレベルの類似性から、もう1つは推定された3D構造からである。セグメンテーションを、エッジの追加と、それに続くグラフの収縮の問題として定式化し、複数の2Dマスクを統一されたオブジェクトレベルのセグメンテーションにマージする。そして、セグメンテーションされた3D表現を生成するために、 ∮3D基礎モデル∮を活用することができます。GraphSegは、従来の手法よりも大幅に少ない画像枚数と高い精度で、ロバストなセグメンテーションを実現する。我々は、卓上シーンで最先端の性能を実証し、GraphSegが下流のロボット操作タスクで性能向上を可能にすることを示す。コードはhttps://github.com/tomtang502/graphseg.git。

要約(オリジナル)

Robots operating in unstructured environments often require accurate and consistent object-level representations. This typically requires segmenting individual objects from the robot’s surroundings. While recent large models such as Segment Anything (SAM) offer strong performance in 2D image segmentation. These advances do not translate directly to performance in the physical 3D world, where they often over-segment objects and fail to produce consistent mask correspondences across views. In this paper, we present GraphSeg, a framework for generating consistent 3D object segmentations from a sparse set of 2D images of the environment without any depth information. GraphSeg adds edges to graphs and constructs dual correspondence graphs: one from 2D pixel-level similarities and one from inferred 3D structure. We formulate segmentation as a problem of edge addition, then subsequent graph contraction, which merges multiple 2D masks into unified object-level segmentations. We can then leverage \emph{3D foundation models} to produce segmented 3D representations. GraphSeg achieves robust segmentation with significantly fewer images and greater accuracy than prior methods. We demonstrate state-of-the-art performance on tabletop scenes and show that GraphSeg enables improved performance on downstream robotic manipulation tasks. Code available at https://github.com/tomtang502/graphseg.git.

arxiv情報

著者 Haozhan Tang,Tianyi Zhang,Oliver Kroemer,Matthew Johnson-Roberson,Weiming Zhi
発行日 2025-04-04 02:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | GraphSeg: Segmented 3D Representations via Graph Edge Addition and Contraction はコメントを受け付けていません

Can DeepSeek Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery

要約

DeepSeekモデルは、その効率的な学習パラダイムと強力な推論能力により、一般的なシーン理解、質問応答(QA)、テキスト生成タスクにおいて卓越した性能を示している。本研究では、ロボット手術シナリオにおけるDeepSeekモデルの対話能力を、Single Phrase QA、Visual QA、Detailed Descriptionといったタスクに焦点を当てて調査する。Single Phrase QAタスクにはさらに、手術器具認識、動作理解、空間位置分析などのサブタスクが含まれる。我々は、EndoVis18やCholecT50などの一般に公開されているデータセットと、それらに対応する対話データを用いて、広範な評価を行った。我々の実証研究によると、既存の汎用マルチモーダル大規模言語モデルと比較して、DeepSeek-VL2は、手術シーンにおける複雑な理解タスクで優れた性能を発揮する。さらに、DeepSeek-V3は純粋に言語モデルですが、画像トークンが直接入力された場合、単一センテンスのQAタスクでより良いパフォーマンスを示すことがわかりました。しかし、全体として、DeepSeekモデルは、手術シーンを理解するための臨床要件を満たすにはまだ不十分である。一般的なプロンプトの下では、DeepSeekモデルはグローバルな手術概念を効果的に分析する能力に欠け、手術シナリオに対する詳細な洞察を提供できない。我々の観察に基づき、我々は、DeepSeekモデルは、手術に特化したデータセット上で微調整することなく、手術の文脈における視覚言語タスクの準備ができていないと主張する。

要約(オリジナル)

The DeepSeek models have shown exceptional performance in general scene understanding, question-answering (QA), and text generation tasks, owing to their efficient training paradigm and strong reasoning capabilities. In this study, we investigate the dialogue capabilities of the DeepSeek model in robotic surgery scenarios, focusing on tasks such as Single Phrase QA, Visual QA, and Detailed Description. The Single Phrase QA tasks further include sub-tasks such as surgical instrument recognition, action understanding, and spatial position analysis. We conduct extensive evaluations using publicly available datasets, including EndoVis18 and CholecT50, along with their corresponding dialogue data. Our empirical study shows that, compared to existing general-purpose multimodal large language models, DeepSeek-VL2 performs better on complex understanding tasks in surgical scenes. Additionally, although DeepSeek-V3 is purely a language model, we find that when image tokens are directly inputted, the model demonstrates better performance on single-sentence QA tasks. However, overall, the DeepSeek models still fall short of meeting the clinical requirements for understanding surgical scenes. Under general prompts, DeepSeek models lack the ability to effectively analyze global surgical concepts and fail to provide detailed insights into surgical scenarios. Based on our observations, we argue that the DeepSeek models are not ready for vision-language tasks in surgical contexts without fine-tuning on surgery-specific datasets.

arxiv情報

著者 Boyi Ma,Yanguang Zhao,Jie Wang,Guankun Wang,Kun Yuan,Tong Chen,Long Bai,Hongliang Ren
発行日 2025-04-04 02:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.RO | Can DeepSeek Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery はコメントを受け付けていません

Taming High-Dimensional Dynamics: Learning Optimal Projections onto Spectral Submanifolds

要約

高次元非線形システムは、流体力学から先端ロボット工学に至るまで、多くの領域においてモデリングと制御に大きな課題をもたらしている。このような系は通常、低次のモデルで近似されるが、このモデルはしばしば直交投影に依存しており、単純化することで大きな予測誤差をもたらす可能性がある。本研究では、非線形幾何学的構造を保持し、長期予測誤差を最小化する、スペクトル部分多様体へのファイバー整列投影の最適性を導出する。データからこれらの投影を近似する計算しやすい手順を提案し、制御の効果をどのように組み込めるかを示す。180次元のロボットシステムに対して、モデル予測制御の下で、我々の低次モデルが、軌道追跡精度において、従来の最先端アプローチを最大5倍上回ることを実証する。

要約(オリジナル)

High-dimensional nonlinear systems pose considerable challenges for modeling and control across many domains, from fluid mechanics to advanced robotics. Such systems are typically approximated with reduced order models, which often rely on orthogonal projections, a simplification that may lead to large prediction errors. In this work, we derive optimality of fiber-aligned projections onto spectral submanifolds, preserving the nonlinear geometric structure and minimizing long-term prediction error. We propose a computationally tractable procedure to approximate these projections from data, and show how the effect of control can be incorporated. For a 180-dimensional robotic system, we demonstrate that our reduced-order models outperform previous state-of-the-art approaches by up to fivefold in trajectory tracking accuracy under model predictive control.

arxiv情報

著者 Hugo Buurmeijer,Luis A. Pabon,John Irvin Alora,Roshan S. Kaundinya,George Haller,Marco Pavone
発行日 2025-04-04 04:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Taming High-Dimensional Dynamics: Learning Optimal Projections onto Spectral Submanifolds はコメントを受け付けていません

Real-Time Roadway Obstacle Detection for Electric Scooters Using Deep Learning and Multi-Sensor Fusion

要約

都市部における電動スクーター(eスクーター)の普及は、その小さな車輪、サスペンションの欠如、凹凸のある路面への敏感さなどが主な原因となって、交通事故や負傷の増加と一致している。ディープラーニングに基づく物体検出は、自動車の安全性を向上させるために広く使用されているが、eスクーターの障害物検出への応用は未解明のままである。本研究では、RGBカメラと深度カメラを統合し、リアルタイムの道路障害物検出を強化した、eスクーター用の新しい地上障害物検出システムを紹介する。さらに、慣性計測ユニット(IMU)が線形垂直加速度を計測して路面の振動を特定し、木の枝、マンホールの蓋、甌穴、松ぼっくり、無方向性の亀裂、切り詰められたドームの6つの障害物カテゴリの選択を導く。RGBカメラ、深度カメラ、IMUを含むすべてのセンサーは、インテル RealSense Camera D435iに統合されている。YOLOを搭載したディープラーニング・モデルが道路の危険を検出し、深度データを活用して障害物の接近を推定する。7時間の自然走行データセットで評価した結果、システムは0.827という高い平均精度(mAP)を達成し、優れたリアルタイム性能を実証した。このアプローチは、高度なコンピュータビジョンとデータフュージョンにより、eスクーターの安全性を高める効果的なソリューションを提供します。データセットはhttps://zenodo.org/records/14583718、プロジェクトコードはhttps://github.com/Zeyang-Zheng/Real-Time-Roadway-Obstacle-Detection-for-Electric-Scooters。

要約(オリジナル)

The increasing adoption of electric scooters (e-scooters) in urban areas has coincided with a rise in traffic accidents and injuries, largely due to their small wheels, lack of suspension, and sensitivity to uneven surfaces. While deep learning-based object detection has been widely used to improve automobile safety, its application for e-scooter obstacle detection remains unexplored. This study introduces a novel ground obstacle detection system for e-scooters, integrating an RGB camera, and a depth camera to enhance real-time road hazard detection. Additionally, the Inertial Measurement Unit (IMU) measures linear vertical acceleration to identify surface vibrations, guiding the selection of six obstacle categories: tree branches, manhole covers, potholes, pine cones, non-directional cracks, and truncated domes. All sensors, including the RGB camera, depth camera, and IMU, are integrated within the Intel RealSense Camera D435i. A deep learning model powered by YOLO detects road hazards and utilizes depth data to estimate obstacle proximity. Evaluated on the seven hours of naturalistic riding dataset, the system achieves a high mean average precision (mAP) of 0.827 and demonstrates excellent real-time performance. This approach provides an effective solution to enhance e-scooter safety through advanced computer vision and data fusion. The dataset is accessible at https://zenodo.org/records/14583718, and the project code is hosted on https://github.com/Zeyang-Zheng/Real-Time-Roadway-Obstacle-Detection-for-Electric-Scooters.

arxiv情報

著者 Zeyang Zheng,Arman Hosseini,Dong Chen,Omid Shoghli,Arsalan Heydarian
発行日 2025-04-04 05:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO | Real-Time Roadway Obstacle Detection for Electric Scooters Using Deep Learning and Multi-Sensor Fusion はコメントを受け付けていません