Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment

要約

ディープニューラルネットワークモデルは、クローズドセットの設定でトレーニングされ、フルラベルを使用して、3Dシーンの理解において顕著な進歩を遂げました。
ただし、主要なボトルネックは、これらのモデルには、多様な現実世界のアプリケーションでトレーニングカテゴリを超えて目に見えない新しいクラスを認識する能力がないことです。
したがって、特にラベルがかなり不足している状況では、3Dポイントクラウドセグメンテーションと検出の両方に同時に適用できるフレームワークが緊急に必要です。
この作品は、ラベル付きのシーンが非常に限られているときに3Dシーンの理解を扱うための一般化された簡単なフレームワークを提示します。
事前に訓練されたビジョン言語モデルから新しいカテゴリの知識を抽出するために、階層的な特徴を調整した事前トレーニングおよび知識蒸留戦略を提案して、有意義な情報を大規模なビジョン言語モデルから抽出および蒸留します。
– タスクを理解する語彙シーン。
潜在的なインスタンスの識別を促進し、効率を保証するために、ポイントクラウドの監視されていない地域レベルのセマンティックコントラスト学習スキームを提案します。
限られた再構成の場合、WS3D ++と呼ばれる提案されたアプローチは、セマンティックセグメンテーションとインスタンスセグメンテーションのタスクの両方で、大規模なスキャネットベンチマークで1位にランクされています。
屋内と屋外の両方のシーンを使用した広範な実験により、データ効率の良い学習とオープンワールドの少数の学習の両方において、アプローチの有効性が実証されました。
このコードは、https://drive.google.com/drive/folders/1m58v-ptr8dbewd296zjkng_m2qq-mtap?usp = sharingで公開されています。

要約(オリジナル)

Deep neural network models have achieved remarkable progress in 3D scene understanding while trained in the closed-set setting and with full labels. However, the major bottleneck is that these models do not have the capacity to recognize any unseen novel classes beyond the training categories in diverse real-world applications. Therefore, we are in urgent need of a framework that can simultaneously be applicable to both 3D point cloud segmentation and detection, particularly in the circumstances where the labels are rather scarce. This work presents a generalized and straightforward framework for dealing with 3D scene understanding when the labeled scenes are quite limited. To extract knowledge for novel categories from the pre-trained vision-language models, we propose a hierarchical feature-aligned pre-training and knowledge distillation strategy to extract and distill meaningful information from large-scale vision-language models, which helps benefit the open-vocabulary scene understanding tasks. To encourage latent instance discrimination and to guarantee efficiency, we propose the unsupervised region-level semantic contrastive learning scheme for point clouds, using confident predictions of the neural network to discriminate the intermediate feature embeddings at multiple stages. In the limited reconstruction case, our proposed approach, termed WS3D++, ranks 1st on the large-scale ScanNet benchmark on both the task of semantic segmentation and instance segmentation. Extensive experiments with both indoor and outdoor scenes demonstrated the effectiveness of our approach in both data-efficient learning and open-world few-shot learning. The code is made publicly available at: https://drive.google.com/drive/folders/1M58V-PtR8DBEwD296zJkNg_m2qq-MTAP?usp=sharing.

arxiv情報

著者 Kangcheng Liu,Yong-Jin Liu,Baoquan Chen
発行日 2025-02-19 09:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment はコメントを受け付けていません

EnvoDat: A Large-Scale Multisensory Dataset for Robotic Spatial Awareness and Semantic Reasoning in Heterogeneous Environments

要約

多様な現実世界の条件下でのロボットの自律性の効率を確保するために、高品質の不均一なデータセットは、動作アルゴリズムのパフォーマンスと堅牢性をベンチマークするために不可欠です。
現在のベンチマークは、主に都市の地形に焦点を当てています。特に、地下トンネル、自然畑、近代的な屋内スペースなど、多様で密集した植生、動的、機能型の環境を残して、路上での自律運転に焦点を当てています。
このギャップを埋めるために、1日のさまざまな時期に高い照明、霧、雨、ゼロの視界など、多様な環境や条件で収集された大規模なマルチモーダルデータセットであるEnvodatを紹介します。
全体として、Envodatには、13のシーンからの26のシーケンス、10センシングモダリティ、1.9TBを超えるデータ、および82を超えるオブジェクトおよび地形クラスの89Kを超えるファイングレインポリゴンベースの注釈が含まれています。
ベンチマークスラムと監視された学習アルゴリズム、および微調整マルチモーダルビジョンモデルをサポートするさまざまな形式でEnvodatを後処理しました。
Envodatを使用すると、条件が非常に困難な分野での環境抵抗力のあるロボットの自律性に貢献します。
データセットおよびその他の関連するリソースは、https://linusnep.github.io/envodat/からアクセスできます。

要約(オリジナル)

To ensure the efficiency of robot autonomy under diverse real-world conditions, a high-quality heterogeneous dataset is essential to benchmark the operating algorithms’ performance and robustness. Current benchmarks predominantly focus on urban terrains, specifically for on-road autonomous driving, leaving multi-degraded, densely vegetated, dynamic and feature-sparse environments, such as underground tunnels, natural fields, and modern indoor spaces underrepresented. To fill this gap, we introduce EnvoDat, a large-scale, multi-modal dataset collected in diverse environments and conditions, including high illumination, fog, rain, and zero visibility at different times of the day. Overall, EnvoDat contains 26 sequences from 13 scenes, 10 sensing modalities, over 1.9TB of data, and over 89K fine-grained polygon-based annotations for more than 82 object and terrain classes. We post-processed EnvoDat in different formats that support benchmarking SLAM and supervised learning algorithms, and fine-tuning multimodal vision models. With EnvoDat, we contribute to environment-resilient robotic autonomy in areas where the conditions are extremely challenging. The datasets and other relevant resources can be accessed through https://linusnep.github.io/EnvoDat/.

arxiv情報

著者 Linus Nwankwo,Bjoern Ellensohn,Vedant Dave,Peter Hofer,Jan Forstner,Marlene Villneuve,Robert Galler,Elmar Rueckert
発行日 2025-02-19 09:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EnvoDat: A Large-Scale Multisensory Dataset for Robotic Spatial Awareness and Semantic Reasoning in Heterogeneous Environments はコメントを受け付けていません

MonoForce: Learnable Image-conditioned Physics Engine

要約

オンボードカメラの画像からの大まかなオフロード地形でのロボット軌跡の予測のための新しいモデルを提案します。
このモデルは、エンドツーエンドの微分可能であるため、大規模なデータから学習する能力を維持しながら、物理学を認識しているニューラルシンボリック層を通じて古典力学の法則を実施します。
提案されたハイブリッドモデルは、ロボットとテレインの相互作用力を神経系シンボリック層と予測するブラックボックスコンポーネントを統合します。
このレイヤーには、地形との接触点でこれらの力を照会することにより、ロボットの軌跡を計算する微分可能な物理エンジンが含まれています。
提案されているアーキテクチャは、かなりの幾何学的および物理学的事前で構成されているため、結果として得られるモデルは、$ 10^4 $軌道を1秒あたり10ドル4ドルの軌道に供給する実際の画像に条件付けられた学習可能な物理エンジンとも見なすことができます。
このアーキテクチャは、SIMからリアルのギャップを減らし、分散分布の感度を緩和することを主張し、経験的に実証します。
迅速なシミュレーション速度と組み合わせて、差別化性により、モデルの予測制御、軌跡撮影、監視および強化学習またはスラムなど、さまざまなアプリケーションにモデルが適切に適用されます。
コードとデータは公開されています。

要約(オリジナル)

We propose a novel model for the prediction of robot trajectories on rough offroad terrain from the onboard camera images. This model enforces the laws of classical mechanics through a physics-aware neural symbolic layer while preserving the ability to learn from large-scale data as it is end-to-end differentiable. The proposed hybrid model integrates a black-box component that predicts robot-terrain interaction forces with a neural-symbolic layer. This layer includes a differentiable physics engine that computes the robot’s trajectory by querying these forces at the points of contact with the terrain. As the proposed architecture comprises substantial geometrical and physics priors, the resulting model can also be seen as a learnable physics engine conditioned on real images that delivers $10^4$ trajectories per second. We argue and empirically demonstrate that this architecture reduces the sim-to-real gap and mitigates out-of-distribution sensitivity. The differentiability, in conjunction with the rapid simulation speed, makes the model well-suited for various applications including model predictive control, trajectory shooting, supervised and reinforcement learning or SLAM. The codes and data are publicly available.

arxiv情報

著者 Ruslan Agishev,Karel Zimmermann
発行日 2025-02-19 10:03:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MonoForce: Learnable Image-conditioned Physics Engine はコメントを受け付けていません

FuzzRisk: Online Collision Risk Estimation for Autonomous Vehicles based on Depth-Aware Object Detection via Fuzzy Inference

要約

このペーパーでは、オブジェクト検出パフォーマンスに基づいて、自律車両(AVS)の衝突リスクのレベルを推進する新しい監視フレームワークを紹介します。
このフレームワークは、異なるアルゴリズムから2セットの予測を取り、ファジー推論を介して矛盾を衝突リスクと関連付けます。
予測の最初のセットは、深度マップから安全性が批判的な2.5Dオブジェクトを取得することによって取得され、2番目のセットは通常のAVの3Dオブジェクト検出器から供給されます。
それを実験的に検証します。これは、交差点(IOU)と深さの矛盾尺度に基づいて、2つの予測セット間の矛盾が、グラウンドトゥルースに対する3Dオブジェクト検出器の誤差と強く相関しています。
この相関により、ファジー推論システムを構築し、矛盾測定値をAV衝突リスクインジケーターにマッピングできます。
特に、AV衝突率によく一致する既存のオフラインメトリックに向けて、ファジー推論システムを最適化します。
最後に、大規模なヌスセンデータセットで関連するリスク推定値を生成するモニターの機能を検証し、閉ループシミュレーションでAVを保護できることを実証します。

要約(オリジナル)

This paper presents a novel monitoring framework that infers the level of collision risk for autonomous vehicles (AVs) based on their object detection performance. The framework takes two sets of predictions from different algorithms and associates their inconsistencies with the collision risk via fuzzy inference. The first set of predictions is obtained by retrieving safety-critical 2.5D objects from a depth map, and the second set comes from the ordinary AV’s 3D object detector. We experimentally validate that, based on Intersection-over-Union (IoU) and a depth discrepancy measure, the inconsistencies between the two sets of predictions strongly correlate to the error of the 3D object detector against ground truths. This correlation allows us to construct a fuzzy inference system and map the inconsistency measures to an AV collision risk indicator. In particular, we optimize the fuzzy inference system towards an existing offline metric that matches AV collision rates well. Lastly, we validate our monitor’s capability to produce relevant risk estimates with the large-scale nuScenes dataset and demonstrate that it can safeguard an AV in closed-loop simulations.

arxiv情報

著者 Brian Hsuan-Cheng Liao,Yingjie Xu,Chih-Hong Cheng,Hasan Esen,Alois Knoll
発行日 2025-02-19 10:49:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | FuzzRisk: Online Collision Risk Estimation for Autonomous Vehicles based on Depth-Aware Object Detection via Fuzzy Inference はコメントを受け付けていません

SLAMSpoof: Practical LiDAR Spoofing Attacks on Localization Systems Guided by Scan Matching Vulnerability Analysis

要約

正確なローカリゼーションは、最新の完全な自動運転サービスを実現するために不可欠です。
これらのサービスは、地図ベースのトラフィック情報に大きく依存して、車線の形状、信号機の場所、交通標識を認識する際の不確実性を減らします。
このレベルのマップ情報に依存することを達成するには、センチメートルレベルのローカリゼーションの精度が必要です。これは現在、LIDARセンサーでのみ達成可能です。
ただし、Lidarは、Lidarに対して悪意のあるレーザーを放出して測定を上書きするスプーフィング攻撃に対して脆弱であることが知られています。
ローカリゼーションが侵害されると、攻撃は被害者を道路から導くか、信号を無視させる可能性があります。
これらの深刻な安全への影響に動機付けられた私たちは、自動運転のためのローカライズシステムに対する最初の実用的なライダースプーフィング攻撃であるSlamspoofを設計し、自律車両の実際の攻撃の重要性を評価します。
Slamspoofofは、スプーフィング攻撃に対する潜在的な脆弱性を表すポイントワイズメトリックである、スキャンマッチングの脆弱性スコア(SMVS)に基づいて、効果的な攻撃位置を効果的に見つけることができます。
攻撃の有効性を評価するために、地上車両で実世界の実験を実施し、実際のシナリオでその高い能力を確認し、3つの人気のあるLidarすべての$ 4.2メートル(典型的な車線幅以上)の位置誤差を誘導します。
ベースのローカリゼーションアルゴリズム。
最終的に、この攻撃の潜在的な対策について説明します。
コードはhttps://github.com/keio-csg/slamspoofで入手できます

要約(オリジナル)

Accurate localization is essential for enabling modern full self-driving services. These services heavily rely on map-based traffic information to reduce uncertainties in recognizing lane shapes, traffic light locations, and traffic signs. Achieving this level of reliance on map information requires centimeter-level localization accuracy, which is currently only achievable with LiDAR sensors. However, LiDAR is known to be vulnerable to spoofing attacks that emit malicious lasers against LiDAR to overwrite its measurements. Once localization is compromised, the attack could lead the victim off roads or make them ignore traffic lights. Motivated by these serious safety implications, we design SLAMSpoof, the first practical LiDAR spoofing attack on localization systems for self-driving to assess the actual attack significance on autonomous vehicles. SLAMSpoof can effectively find the effective attack location based on our scan matching vulnerability score (SMVS), a point-wise metric representing the potential vulnerability to spoofing attacks. To evaluate the effectiveness of the attack, we conduct real-world experiments on ground vehicles and confirm its high capability in real-world scenarios, inducing position errors of $\geq$4.2 meters (more than typical lane width) for all 3 popular LiDAR-based localization algorithms. We finally discuss the potential countermeasures of this attack. Code is available at https://github.com/Keio-CSG/slamspoof

arxiv情報

著者 Rokuto Nagata,Kenji Koide,Yuki Hayakawa,Ryo Suzuki,Kazuma Ikeda,Ozora Sako,Qi Alfred Chen,Takami Sato,Kentaro Yoshioka
発行日 2025-02-19 11:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SLAMSpoof: Practical LiDAR Spoofing Attacks on Localization Systems Guided by Scan Matching Vulnerability Analysis はコメントを受け付けていません

An Adaptive Data-Enabled Policy Optimization Approach for Autonomous Bicycle Control

要約

このホワイトペーパーでは、内部ループ内のフィードバック線形化(FL)コントローラーをアダプティブデータ対応ポリシー最適化(DEEPO)コントローラーと外部ループに統合し、自律自転車のバランスをとる統合された制御フレームワークを紹介します。
FLコントローラーは、本質的に不安定で非線形システムを安定化および部分的に線形化しますが、そのパフォーマンスはモデルのダイナミクスと時変特性によって損なわれます。
これらの制限を克服するために、DEEPOコントローラーが導入され、適応性と堅牢性が向上します。
DEEPOの初期制御ポリシーは、オフラインの有限のセット、永続的に刺激的な入力および状態データから取得されます。
安定性を改善し、システムの非線形性と妨害を補うために、堅牢性を促進する正規者が初期ポリシーを改良しますが、Deepoフレームワークの適応セクションは、時変ダイナミクスへの適応を改善する忘れた要因で強化されます。
提案されているDeepo+FLアプローチは、機器の自律自転車でのシミュレーションと実際の実験を通じて評価されます。
結果は、FLのみのアプローチに対するその優位性を示しており、参照リーン角とリーンレートのより正確な追跡を実現しています。

要約(オリジナル)

This paper presents a unified control framework that integrates a Feedback Linearization (FL) controller in the inner loop with an adaptive Data-Enabled Policy Optimization (DeePO) controller in the outer loop to balance an autonomous bicycle. While the FL controller stabilizes and partially linearizes the inherently unstable and nonlinear system, its performance is compromised by unmodeled dynamics and time-varying characteristics. To overcome these limitations, the DeePO controller is introduced to enhance adaptability and robustness. The initial control policy of DeePO is obtained from a finite set of offline, persistently exciting input and state data. To improve stability and compensate for system nonlinearities and disturbances, a robustness-promoting regularizer refines the initial policy, while the adaptive section of the DeePO framework is enhanced with a forgetting factor to improve adaptation to time-varying dynamics. The proposed DeePO+FL approach is evaluated through simulations and real-world experiments on an instrumented autonomous bicycle. Results demonstrate its superiority over the FL-only approach, achieving more precise tracking of the reference lean angle and lean rate.

arxiv情報

著者 Niklas Persson,Feiran Zhao,Mojtaba Kaheni,Florian Dörfler,Alessandro V. Papadopoulos
発行日 2025-02-19 12:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | An Adaptive Data-Enabled Policy Optimization Approach for Autonomous Bicycle Control はコメントを受け付けていません

A Framework for Semantics-based Situational Awareness during Mobile Robot Deployments

要約

ロボットの危険な環境への展開には、通常、「人間のロボットチーム」(HRT)パラダイムが含まれます。このパラダイムでは、人間の監督者が危険なゾーン内で遠隔操作ロボットと対話します。
HRTを有効にし、ナビゲーション、計画、意思決定をサポートするためには、状況認識(SA)が不可欠です。
このペーパーでは、SAの高レベルの「セマンティック」情報と理解の問題について説明します。
半自律的、または可変自動パラダイムでは、人間のオペレーターとロボットを制御する自律剤の両方にとって、さまざまなタイプのセマンティック情報が重要である可能性があります。
モバイルロボットのリモート展開中に、セマンティックレベルのSAの複数のモダリティを取得および組み合わせるための一般化可能なフレームワークを提案します。
災害対応ロボット工学におけるSearch and Rescue(SAR)の適用の例でフレームワークを実証します。
さまざまな種類のセマンティック情報を反映できる「環境セマンティックインジケーター」のセットを提案します。
ロボットがさまざまなシーンに遭遇するときのリスクの指標、または人間の活動の兆候。
これらの指標に基づいて、「状況の意味的豊かさ(SSR)」と呼ばれる環境の全体的な状況を説明するメトリックを提案します。
このメトリックは、複数のセマンティックインジケーターを組み合わせて、全体的な状況を要約します。
SSRは、情報が豊富で複雑な状況に遭遇したかどうかを示します。これには、ロボットと人間の高度な推論が必要になる場合があり、したがって、専門家の人間オペレーターの注意が必要です。
このフレームワークは、モックアップ災害対応環境のジャッカルロボットでテストされています。
実験結果は、提案されたセマンティックインジケーターが、さまざまなシーンのセマンティック情報のさまざまなモダリティの変化に敏感であり、SSRメトリックは遭遇した状況の全体的なセマンティックの変化を反映していることを示しています。

要約(オリジナル)

Deployment of robots into hazardous environments typically involves a “Human-Robot Teaming” (HRT) paradigm, in which a human supervisor interacts with a remotely operating robot inside the hazardous zone. Situational Awareness (SA) is vital for enabling HRT, to support navigation, planning, and decision-making. This paper explores issues of higher-level “semantic” information and understanding in SA. In semi-autonomous, or variable-autonomy paradigms, different types of semantic information may be important, in different ways, for both the human operator and an autonomous agent controlling the robot. We propose a generalizable framework for acquiring and combining multiple modalities of semantic-level SA during remote deployments of mobile robots. We demonstrate the framework with an example application of search and rescue (SAR) in disaster response robotics. We propose a set of “environment semantic indicators’ that can reflect a variety of different types of semantic information, e.g. indicators of risk, or signs of human activity, as the robot encounters different scenes. Based on these indicators, we propose a metric to describe the overall situation of the environment called “Situational Semantic Richness (SSR)’. This metric combines multiple semantic indicators to summarise the overall situation. The SSR indicates if an information-rich and complex situation has been encountered, which may require advanced reasoning for robots and humans and hence the attention of the expert human operator. The framework is tested on a Jackal robot in a mock-up disaster response environment. Experimental results demonstrate that the proposed semantic indicators are sensitive to changes in different modalities of semantic information in different scenes, and the SSR metric reflects overall semantic changes in the situations encountered.

arxiv情報

著者 Tianshu Ruan,Aniketh Ramesh,Hao Wang,Alix Johnstone-Morfoisse,Gokcenur Altindal,Paul Norman,Grigoris Nikolaou,Rustam Stolkin,Manolis Chiou
発行日 2025-02-19 12:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Framework for Semantics-based Situational Awareness during Mobile Robot Deployments はコメントを受け付けていません

Human-Like Robot Impedance Regulation Skill Learning from Human-Human Demonstrations

要約

人間は、パートナー状態の認識とタスク要件に基づいてコンプライアンス行動を規制することにより、物理的に他の人と協力する専門家です。
ロボットが人間のコラボレーションスキルの習熟度を開発できるようにすることで、より効率的な人間ロボットコラボレーション(HRC)を促進できます。
このペーパーでは、複数の物理的共同作業でHRCを達成するための革新的なインピーダンス規制スキル学習フレームワークを紹介します。
このフレームワークは、人間の人間のデモンストレーションによって提供される軌跡を参照することを順守しながら、人間のパートナーの状態にロボットコンプライアンスを調整するように設計されています。
具体的には、人間の筋肉からの筋電図(EMG)シグナルが収集され、分析されて、デモ中にコンプライアンス行動を表す肢のインピーダンスを抽出します。
ヒトエンドポイントの動きは、確率論学習方法を使用してキャプチャおよび表現され、参照軌跡と対応するインピーダンスプロファイルを作成します。
一方、LSTMベースのモジュールが実装され、2人のデモ参加者間の筋肉の相乗的貢献をマッピングすることにより、タスク指向のインピーダンス規制ポリシーを開発します。
最後に、人間のようなロボットの全ボディインピーダンスコントローラーを提案し、タスクの実行中に目的のインピーダンスと参照軌道を実現するためのジョイント出力を調整します。
実験的検証は、コラボレーション輸送タスクと2つのインタラクティブな太極拳のプッシュハンドタスクを通じて実施され、一定のインピーダンス制御方法と比較して、インタラクティブな力の観点から優れたパフォーマンスを実証しました。

要約(オリジナル)

Humans are experts in collaborating with others physically by regulating compliance behaviors based on the perception of their partner states and the task requirements. Enabling robots to develop proficiency in human collaboration skills can facilitate more efficient human-robot collaboration (HRC). This paper introduces an innovative impedance regulation skill learning framework for achieving HRC in multiple physical collaborative tasks. The framework is designed to adjust the robot compliance to the human partner states while adhering to reference trajectories provided by human-human demonstrations. Specifically, electromyography (EMG) signals from human muscles are collected and analyzed to extract limb impedance, representing compliance behaviors during demonstrations. Human endpoint motions are captured and represented using a probabilistic learning method to create reference trajectories and corresponding impedance profiles. Meanwhile, an LSTMbased module is implemented to develop task-oriented impedance regulation policies by mapping the muscle synergistic contributions between two demonstrators. Finally, we propose a wholebody impedance controller for a human-like robot, coordinating joint outputs to achieve the desired impedance and reference trajectory during task execution. Experimental validation was conducted through a collaborative transportation task and two interactive Tai Chi pushing hands tasks, demonstrating superior performance from the perspective of interactive forces compared to a constant impedance control method.

arxiv情報

著者 Chenzui Li,Xi Wu,Junjia Liu,Tao Teng,Yiming Chen,Sylvain Calinon,Darwin Caldwell,Fei Chen
発行日 2025-02-19 13:23:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Human-Like Robot Impedance Regulation Skill Learning from Human-Human Demonstrations はコメントを受け付けていません

Active Illumination for Visual Ego-Motion Estimation in the Dark

要約

視覚的な臭気(VO)および視覚的なスラム(V-SLAM)システムは、堅牢な視覚的特徴がないため、低光および暗い環境で苦労することがよくあります。
この論文では、これらの挑戦的な条件でVOおよびV-SLAMアルゴリズムのパフォーマンスを強化するための新しいアクティブ照明フレームワークを提案します。
開発されたアプローチは、動く光源を動的に制御して、高度にテクスチャされた領域を照らし、機能の抽出と追跡を改善します。
具体的には、深い学習ベースの強化ネットワークを組み込んだ検出器ブロックは、関連する機能を備えた領域を識別します。
次に、パンチルトコントローラーがこれらの領域にライトビームをガイドする責任があるため、エゴモーション推定アルゴリズムに情報が豊富な画像を提供します。
実際のロボットプラットフォームでの実験結果は、提案された方法の有効性を示しており、従来の固定照明技術に関して、ポーズ推定誤差の最大75%の減少を示しています。

要約(オリジナル)

Visual Odometry (VO) and Visual SLAM (V-SLAM) systems often struggle in low-light and dark environments due to the lack of robust visual features. In this paper, we propose a novel active illumination framework to enhance the performance of VO and V-SLAM algorithms in these challenging conditions. The developed approach dynamically controls a moving light source to illuminate highly textured areas, thereby improving feature extraction and tracking. Specifically, a detector block, which incorporates a deep learning-based enhancing network, identifies regions with relevant features. Then, a pan-tilt controller is responsible for guiding the light beam toward these areas, so that to provide information-rich images to the ego-motion estimation algorithm. Experimental results on a real robotic platform demonstrate the effectiveness of the proposed method, showing a reduction in the pose estimation error up to 75% with respect to a traditional fixed lighting technique.

arxiv情報

著者 Francesco Crocetti,Alberto Dionigi,Raffaele Brilli,Gabriele Costante,Paolo Valigi
発行日 2025-02-19 13:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Active Illumination for Visual Ego-Motion Estimation in the Dark はコメントを受け付けていません

Bridging Adaptivity and Safety: Learning Agile Collision-Free Locomotion Across Varied Physics

要約

現実世界の脚のある移動システムは、さまざまなシナリオの俊敏性と安全性を調整する必要があることがよくあります。
さらに、基礎となるダイナミクスはしばしば不明で時間変動(例えば、ペイロード、摩擦)です。
この論文では、以前の作業のアジャイルが安全(ABS)(HE等)のパイプラインに基づいたBAS(適応性と安全性の橋渡し)を紹介し、不確実性のある動的環境でも適応的な安全性を提供するように設計されています。
BASには、障害物を迅速に回避するためのアジャイルポリシーと、衝突を防ぐための回復ポリシー、アジャイルポリシーで同時に訓練された物理的パラメーター推定器、およびポリシースイッチを管理する学習制御理論RA(Reach-Avoid)バリューネットワークが含まれます。
また、アジャイルポリシーとRAネットワークは両方とも、それらを適応的にするための物理パラメーターを条件としています。
分布シフトの問題を軽減するために、さらに、推定器がその堅牢性と精度を高めるために、ポリティ上の微調整段階を導入します。
シミュレーション結果は、BASが平均して高速を維持しながら、動的環境でベースラインよりも50%優れた安全性を達成することを示しています。
実際の実験では、BASは、物理学が不明な複雑な環境でその能力を示しています(たとえば、未知の摩擦がある滑りやすい床、最大8kgまでのペイロード)。ベースラインには適応性がなく、衝突につながります。
劣化した敏ility性。
その結果、BASは速度が19.8%増加し、現実の世界でABSの2.36倍低い衝突率を獲得します。
ビデオ:https://adaptive-safe-locomotion.github.io。

要約(オリジナル)

Real-world legged locomotion systems often need to reconcile agility and safety for different scenarios. Moreover, the underlying dynamics are often unknown and time-variant (e.g., payload, friction). In this paper, we introduce BAS (Bridging Adaptivity and Safety), which builds upon the pipeline of prior work Agile But Safe (ABS)(He et al.) and is designed to provide adaptive safety even in dynamic environments with uncertainties. BAS involves an agile policy to avoid obstacles rapidly and a recovery policy to prevent collisions, a physical parameter estimator that is concurrently trained with agile policy, and a learned control-theoretic RA (reach-avoid) value network that governs the policy switch. Also, the agile policy and RA network are both conditioned on physical parameters to make them adaptive. To mitigate the distribution shift issue, we further introduce an on-policy fine-tuning phase for the estimator to enhance its robustness and accuracy. The simulation results show that BAS achieves 50% better safety than baselines in dynamic environments while maintaining a higher speed on average. In real-world experiments, BAS shows its capability in complex environments with unknown physics (e.g., slippery floors with unknown frictions, unknown payloads up to 8kg), while baselines lack adaptivity, leading to collisions or. degraded agility. As a result, BAS achieves a 19.8% increase in speed and gets a 2.36 times lower collision rate than ABS in the real world. Videos: https://adaptive-safe-locomotion.github.io.

arxiv情報

著者 Yichao Zhong,Chong Zhang,Tairan He,Guanya Shi
発行日 2025-02-19 14:13:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Bridging Adaptivity and Safety: Learning Agile Collision-Free Locomotion Across Varied Physics はコメントを受け付けていません