Meta-Ori: monolithic meta-origami for nonlinear inflatable soft actuators

要約

柔らかい材料と細長い構造の非線形の機械的応答は、シーケンス、増幅された応答、ファスエネルギー放出など、ソフトロボットアクチュエーターの設計によるプログラム機能を意図的に活用しています。ただし、非線形アクチュエーターの典型的な設計 – 例えば
風船、逆膜、スプリング – 設計パラメーターのスペースと複雑な製造プロセスが限られており、より精巧な機能の達成を妨げます。
一方、機械的メタマテリアルには、非常に大きな設計パラメータースペースがあり、非線形動作の微調整を可能にします。
この作業では、メタマテリアルと折り紙(メタオリ)に基づいた非線形インフレータブルを、熱可塑性ポリウレタン(TPU)市販のファイルメントを使用して融合堆積モデリング(FDM)を介して完全に印刷できるモノリシック部分として製造するための新しいアプローチを提示します。
私たちのデザインは、円筒形のトポロジと非線形の機械的応答を備えたメタマテリアルシェルと、空気圧送信機として機能するKERSLING折り紙膨張可能なインフレータブルと組み合わせたもので構成されています。
視覚的なプログラミング言語Grasshopperで設計ツールを開発およびリリースして、メタオリをインタラクティブに設計しています。
メタシェルと折り紙の機械的応答、およびメタオリの膨張能力の非線形圧力容積曲線を特徴づけ、最後に、バイセグメントモノリシックメタオリソフトアクチュエータの作動シーケンスを実証します。

要約(オリジナル)

The nonlinear mechanical response of soft materials and slender structures is purposefully harnessed to program functions by design in soft robotic actuators, such as sequencing, amplified response, fast energy release, etc. However, typical designs of nonlinear actuators – e.g. balloons, inverted membranes, springs – have limited design parameters space and complex fabrication processes, hindering the achievement of more elaborated functions. Mechanical metamaterials, on the other hand, have very large design parameter spaces, which allow fine-tuning of nonlinear behaviours. In this work, we present a novel approach to fabricate nonlinear inflatables based on metamaterials and origami (Meta-Ori) as monolithic parts that can be fully 3D printed via Fused Deposition Modeling (FDM) using thermoplastic polyurethane (TPU) commercial filaments. Our design consists of a metamaterial shell with cylindrical topology and nonlinear mechanical response combined with a Kresling origami inflatable acting as a pneumatic transmitter. We develop and release a design tool in the visual programming language Grasshopper to interactively design our Meta-Ori. We characterize the mechanical response of the metashell and the origami, and the nonlinear pressure-volume curve of the Meta-Ori inflatable and, lastly, we demonstrate the actuation sequencing of a bi-segment monolithic Meta-Ori soft actuator.

arxiv情報

著者 Hugo de Souza Oliveira,Xin Li,Johannes Frey,Edoardo Milana
発行日 2025-03-30 09:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.soft, cs.RO | コメントする

Proprioceptive multistable mechanical metamaterial via soft capacitive sensors

要約

ソフトマシンからソフトロボットへの技術的移行は、必然的にソフトエレクトロニクスとセンサーの統合を通過します。
これにより、ロボットの具体化の柔らかさを維持しながら、フィードバック制御システムの確立が可能になります。
多数の機能を達成するために非線形応答を設計によって調整できるため、多数の機械的メタマテリアルはソフトマシンの優れたビルディングブロックです。
この作業では、状態の変化の固有受容センシングを可能にするために、多数の機械的メタマテリアルにソフト容量容量センサーの統合を提示します。
メタマテリアルは、4つの双安定ユニットセルの周期的な配置です。
各ユニットセルには、統合された容量性センサーがあります。
メタストラクチャとセンサーの両方は、柔らかい材料(TPU)で作られており、3D印刷されています。
予備的な結果は、非線形変形をキャプチャすることにより、センサーの静電容量変動がメタマテリアルの状態遷移にリンクできることを示しています。

要約(オリジナル)

The technological transition from soft machines to soft robots necessarily passes through the integration of soft electronics and sensors. This allows for the establishment of feedback control systems while preserving the softness of the robot embodiment. Multistable mechanical metamaterials are excellent building blocks of soft machines, as their nonlinear response can be tuned by design to accomplish several functions. In this work, we present the integration of soft capacitive sensors in a multistable mechanical metamaterial, to enable proprioceptive sensing of state changes. The metamaterial is a periodic arrangement of 4 bistable unit cells. Each unit cell has an integrated capacitive sensor. Both the metastructure and the sensors are made of soft materials (TPU) and are 3D printed. Our preliminary results show that the capacitance variation of the sensors can be linked to state transitions of the metamaterial, by capturing the nonlinear deformation.

arxiv情報

著者 Hugo de Souza Oliveira,Niloofar Saeedzadeh Khaanghah,Martijn Oetelmans,Niko Münzenrieder,Edoardo Milana
発行日 2025-03-30 10:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.soft, cs.RO | コメントする

A Visual-Inertial Motion Prior SLAM for Dynamic Environments

要約

ほとんどが静的な仮定に基づいた視覚的inertial同時ローカリゼーションとマッピング(VI-SLAM)アルゴリズムは、ロボット工学、UAV、VR、自律運転などのフィールドで広く使用されています。
ほとんどのVISLAMシステムの動的ランドマークによって引き起こされるローカリゼーションリスクを克服するために、このペーパーでは、動的環境の前の慣性運動を使用してダイナミックランドマークを効果的に処理する堅牢な視覚慣性運動以前のスラムシステムが、程度の変化する慣性運動を効果的に処理することが提案されています。
具体的には、潜在的な動的ランドマークは、慣性運動前およびエピポーラの制約から得られるランドマークの最小投影エラーの確率モデルによって、特徴追跡段階で前処理されます。
その後、動的候補ランドマークの前の最小投影誤差を考慮して、バンドル調整(BA)残差が提案されます。
この残差は、カメラのポーズ、IMU状態、およびランドマークの位置を推定するために、スライディングウィンドウベースの非線形最適化プロセスに統合され、事前の動きから逸脱する動的候補ランドマークの影響を最小限に抑えます。
最後に、実験結果は、私たちの提案されたシステムが、動的ランドマークの影響を強く軽減することにより、ローカリゼーションの精度と時間コストの観点から最先端の方法よりも優れていることを示しています。

要約(オリジナル)

The Visual-Inertial Simultaneous Localization and Mapping (VI-SLAM) algorithms which are mostly based on static assumption are widely used in fields such as robotics, UAVs, VR, and autonomous driving. To overcome the localization risks caused by dynamic landmarks in most VI-SLAM systems, a robust visual-inertial motion prior SLAM system, named (IDY-VINS), is proposed in this paper which effectively handles dynamic landmarks using inertial motion prior for dynamic environments to varying degrees. Specifically, potential dynamic landmarks are preprocessed during the feature tracking phase by the probabilistic model of landmarks’ minimum projection errors which are obtained from inertial motion prior and epipolar constraint. Subsequently, a bundle adjustment (BA) residual is proposed considering the minimum projection error prior for dynamic candidate landmarks. This residual is integrated into a sliding window based nonlinear optimization process to estimate camera poses, IMU states and landmark positions while minimizing the impact of dynamic candidate landmarks that deviate from the motion prior. Finally, experimental results demonstrate that our proposed system outperforms state-of-the-art methods in terms of localization accuracy and time cost by robustly mitigating the influence of dynamic landmarks.

arxiv情報

著者 Weilong Sun,Yumin Zhang,Boren Wei
発行日 2025-03-30 13:18:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

VET: A Visual-Electronic Tactile System for Immersive Human-Machine Interaction

要約

ヒューマンマシン相互作用に深い没入感を追求するために、単一のインターフェイスでより次元的な触覚入力と出力を達成することが重要な研究焦点になりました。
この研究では、視覚エレクトロニック触覚(VET)システムを紹介します。これは、視覚ベースの触覚センサー(VBT)に基づいており、電気刺激フィードバックを統合して双方向の触覚コミュニケーションを可能にします。
画面印刷準備プロセスを使用して、電気刺激フィルムをVBTとシームレスに統合し、従来の方法からの干渉を排除するシステムフレームワークを提案および実装します。
VBTSはvisuotactileシグナルを介して多次元入力をキャプチャしますが、電気刺激フィードバックは神経経路を直接刺激し、視覚型情報の干渉を防ぎます。
VETシステムの可能性は、指の電気刺激感度ゾーンの実験、およびインタラクティブなゲームおよびロボットアームの操作のアプリケーションを通じて実証されています。
このシステムは、双方向の触覚相互作用とその幅広いアプリケーションの新しい進歩への道を開きます。

要約(オリジナル)

In the pursuit of deeper immersion in human-machine interaction, achieving higher-dimensional tactile input and output on a single interface has become a key research focus. This study introduces the Visual-Electronic Tactile (VET) System, which builds upon vision-based tactile sensors (VBTS) and integrates electrical stimulation feedback to enable bidirectional tactile communication. We propose and implement a system framework that seamlessly integrates an electrical stimulation film with VBTS using a screen-printing preparation process, eliminating interference from traditional methods. While VBTS captures multi-dimensional input through visuotactile signals, electrical stimulation feedback directly stimulates neural pathways, preventing interference with visuotactile information. The potential of the VET system is demonstrated through experiments on finger electrical stimulation sensitivity zones, as well as applications in interactive gaming and robotic arm teleoperation. This system paves the way for new advancements in bidirectional tactile interaction and its broader applications.

arxiv情報

著者 Cong Zhang,Yisheng Yangm,Shilong Mu,Chuqiao Lyu,Shoujie Li,Xinyue Chai,Wenbo Ding
発行日 2025-03-30 13:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Design and Experimental Validation of an Autonomous USV for Sensor Fusion-Based Navigation in GNSS-Denied Environments

要約

このホワイトペーパーでは、GNSS環境でのセンサー融合ベースのナビゲーションアルゴリズムの実世界のテストのために構築された自律的な無人の表面車両であるMarvelの設計、開発、および実験的検証を紹介します。
Marvelは、高周波データ収集と実験学習のためのモジュール式でアクセス可能なプラットフォームを作成することを目的として、費用効率、携帯性、および海w性性の厳格な制約の下で開発されました。
電磁ログ、ドップラー速度ログ、慣性センサー、リアルタイムの運動学的GNSの位置決めを統合します。
Marvelは、冗長で同期されたセンサーを使用して、高度なナビゲーションとAI駆動型アルゴリズムのリアルタイムのin-situ検証を可能にします。
野外実験は、挑戦的な海の状態におけるシステムの安定性、操縦性、および適応性を示しています。
このプラットフォームは、実世界の海上制約の下でセンサー融合技術を評価するための手頃な価格のオープンエンドのツールを求める研究者に、新しいスケーラブルなアプローチを提供します。

要約(オリジナル)

This paper presents the design, development, and experimental validation of MARVEL, an autonomous unmanned surface vehicle built for real-world testing of sensor fusion-based navigation algorithms in GNSS-denied environments. MARVEL was developed under strict constraints of cost-efficiency, portability, and seaworthiness, with the goal of creating a modular, accessible platform for high-frequency data acquisition and experimental learning. It integrates electromagnetic logs, Doppler velocity logs, inertial sensors, and real-time kinematic GNSS positioning. MARVEL enables real-time, in-situ validation of advanced navigation and AI-driven algorithms using redundant, synchronized sensors. Field experiments demonstrate the system’s stability, maneuverability, and adaptability in challenging sea conditions. The platform offers a novel, scalable approach for researchers seeking affordable, open-ended tools to evaluate sensor fusion techniques under real-world maritime constraints.

arxiv情報

著者 Samuel Cohen-Salmon,Itzik Klein
発行日 2025-03-30 13:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.RO | コメントする

Controllable Latent Diffusion for Traffic Simulation

要約

自律駆動システムの検証は、現実的で正確に制御可能なシナリオを生成する能力から大きな恩恵を受けます。
実際のテストドライブなどの従来のアプローチは、高価であるだけでなく、ターゲットを絞ったエッジケースを徹底的に評価するための柔軟性も欠いています。
これらの課題に対処するために、仮想テストのための多様で制御可能な運転シナリオのセットを自動的に生成するために、強化学習を介して拡散モデルのトレーニングを導く制御可能な潜在拡散を提案します。
私たちのアプローチは、自律型車両システムに挑戦して評価するためにプロパティを調整できる複雑なシナリオを生成することにより、大規模な現実世界のデータへの依存を取り除きます。
実験結果は、私たちのアプローチの衝突率が0.098ドルで、オフロード率が0.096ドルで、既存のベースラインに対する優位性が示されていることが示されています。
提案されたアプローチは、生成されたシナリオのリアリズム、安定性、制御性を大幅に改善し、自律車のより微妙な安全評価を可能にします。

要約(オリジナル)

The validation of autonomous driving systems benefits greatly from the ability to generate scenarios that are both realistic and precisely controllable. Conventional approaches, such as real-world test drives, are not only expensive but also lack the flexibility to capture targeted edge cases for thorough evaluation. To address these challenges, we propose a controllable latent diffusion that guides the training of diffusion models via reinforcement learning to automatically generate a diverse and controllable set of driving scenarios for virtual testing. Our approach removes the reliance on large-scale real-world data by generating complex scenarios whose properties can be finely tuned to challenge and assess autonomous vehicle systems. Experimental results show that our approach has the lowest collision rate of $0.098$ and lowest off-road rate of $0.096$, demonstrating superiority over existing baselines. The proposed approach significantly improves the realism, stability and controllability of the generated scenarios, enabling more nuanced safety evaluation of autonomous vehicles.

arxiv情報

著者 Yizhuo Xiao,Mustafa Suphi Erden,Cheng Wang
発行日 2025-03-30 13:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | コメントする

SparseLoc: Sparse Open-Set Landmark-based Global Localization for Autonomous Navigation

要約

グローバルなローカリゼーションは、自律的なナビゲーションにおける重要な問題であり、GPSに依存せずに正確な位置決めを可能にします。
最新のグローバルローカリゼーション技術は、多くの場合、高密度のライダーマップに依存します。これは、正確ですが、広範なストレージと計算リソースが必要です。
最近のアプローチでは、まばらなマップや学習された機能などの代替方法が調査されていますが、堅牢性と一般化が不十分です。
Sparselocを提案します。Sparselocは、Vision-Language Foundationモデルを活用して、ゼロショットの方法でスパースでセマンティックトポメトリックマップを生成するグローバルなローカリゼーションフレームワークを提案します。
このマップ表現と、新規遅延最適化戦略によって強化されたモンテカルロローカリゼーションスキームと組み合わせて、ポーズ推定の改善を確保します。
慎重に設計された最適化スケジュールを通じて、コンパクトでありながら高度に差別的なマップと精製ローカリゼーションを構築することにより、Sparselocは既存の技術の制限を克服し、グローバルなローカリゼーションのためのより効率的で堅牢なソリューションを提供します。
当社のシステムは、既存のスパースマッピング手法と比較して、ローカリゼーションの精度が5倍に改善されています。
密なマッピング方法のポイントの1/500のみを利用しているにもかかわらず、同等のパフォーマンスを実現し、キッティシーケンスで5mおよび2度未満の平均的なグローバルローカリゼーションエラーを維持します。

要約(オリジナル)

Global localization is a critical problem in autonomous navigation, enabling precise positioning without reliance on GPS. Modern global localization techniques often depend on dense LiDAR maps, which, while precise, require extensive storage and computational resources. Recent approaches have explored alternative methods, such as sparse maps and learned features, but they suffer from poor robustness and generalization. We propose SparseLoc, a global localization framework that leverages vision-language foundation models to generate sparse, semantic-topometric maps in a zero-shot manner. It combines this map representation with a Monte Carlo localization scheme enhanced by a novel late optimization strategy, ensuring improved pose estimation. By constructing compact yet highly discriminative maps and refining localization through a carefully designed optimization schedule, SparseLoc overcomes the limitations of existing techniques, offering a more efficient and robust solution for global localization. Our system achieves over a 5X improvement in localization accuracy compared to existing sparse mapping techniques. Despite utilizing only 1/500th of the points of dense mapping methods, it achieves comparable performance, maintaining an average global localization error below 5m and 2 degrees on KITTI sequences.

arxiv情報

著者 Pranjal Paul,Vineeth Bhat,Tejas Salian,Mohammad Omama,Krishna Murthy Jatavallabhula,Naveen Arulselvan,K. Madhava Krishna
発行日 2025-03-30 14:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Handling Delay in Real-Time Reinforcement Learning

要約

リアルタイム強化学習(RL)は、いくつかの課題を導入します。
まず、ポリシーは、ハードウェアの制限により、一秒あたりの固定数のアクションに制約されます。
第二に、ネットワークが依然としてアクションを計算している間、環境が変化する可能性があり、観測遅延につながります。
最初の問題は、パイプラインで部分的に対処でき、スループットが高くなり、より良いポリシーにつながる可能性があります。
ただし、2番目の問題は次のとおりです。各ニューロンが$ \ tau $の実行時間と並行して動作する場合、$ n $ -layerのフィードフォワードネットワードは$ \ tau n $の観測遅延を経験します。
レイヤーの数を減らすと、この遅延が減少する可能性がありますが、ネットワークの表現率は犠牲になります。
この作業では、遅延を最小限に抑えることとネットワークの表現力を最小限に抑えることのトレードオフを探ります。
歴史が熟成した観測と組み合わせた時間的スキップ接続を活用する理論的に動機付けられたソリューションを提示します。
いくつかのアーキテクチャを評価し、時間的スキップ接続を組み込んだものには、さまざまなニューロン実行時間、強化学習アルゴリズム、および4つのムホコタスクとすべてのミナタールゲームを含む環境で強力なパフォーマンスを実現することを示します。
さらに、並列ニューロン計算が標準のハードウェアで推論を6〜350%加速できることを示しています。
時間的なスキップ接続と並列計算の調査は、リアルタイムの設定でより効率的なRLエージェントへの道を開きます。

要約(オリジナル)

Real-time reinforcement learning (RL) introduces several challenges. First, policies are constrained to a fixed number of actions per second due to hardware limitations. Second, the environment may change while the network is still computing an action, leading to observational delay. The first issue can partly be addressed with pipelining, leading to higher throughput and potentially better policies. However, the second issue remains: if each neuron operates in parallel with an execution time of $\tau$, an $N$-layer feed-forward network experiences observation delay of $\tau N$. Reducing the number of layers can decrease this delay, but at the cost of the network’s expressivity. In this work, we explore the trade-off between minimizing delay and network’s expressivity. We present a theoretically motivated solution that leverages temporal skip connections combined with history-augmented observations. We evaluate several architectures and show that those incorporating temporal skip connections achieve strong performance across various neuron execution times, reinforcement learning algorithms, and environments, including four Mujoco tasks and all MinAtar games. Moreover, we demonstrate parallel neuron computation can accelerate inference by 6-350% on standard hardware. Our investigation into temporal skip connections and parallel computations paves the way for more efficient RL agents in real-time setting.

arxiv情報

著者 Ivan Anokhin,Rishav Rishav,Matthew Riemer,Stephen Chung,Irina Rish,Samira Ebrahimi Kahou
発行日 2025-03-30 15:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

Improving Indoor Localization Accuracy by Using an Efficient Implicit Neural Map Representation

要約

既知のマップでモバイルロボットをグローバルにローカライズすることは、多くの場合、ロボットが自律的にナビゲートおよび操作できるようにするための基盤です。
屋内環境では、占有グリッドマップに基づく従来のモンテカルロのローカリゼーションはゴールドスタンダードと見なされますが、その精度は占有グリッドマップの表現機能によって制限されます。
この論文では、確率的なグローバルローカリゼーションを正確に実行できる効果的なマップ表現を構築する問題に対処します。
この目的のために、2D LIDARスキャンから位置的および方向性の幾何学的特徴をキャプチャできる暗黙の神経マップ表現を提案し、環境を効率的に表現し、マッピングされた環境での任意のポイントの非プロジェクトの署名距離と方向目的の射影距離の両方を予測できる神経ネットワークを学習します。
このニューラルマップ表現と軽量のニューラルネットワークの組み合わせにより、従来のモンテカルロローカリゼーションフレームワーク内でリアルタイムでロボットを推定するための効率的な観測モデルを設計することができます。
グローバルなローカリゼーションのために公開されているデータセットでの屋内ローカリゼーションへのアプローチを評価し、実験結果は、私たちのアプローチが、占有または既存のニューラルマップ表現を使用する他のローカリゼーションアプローチよりもモバイルロボットをより正確にローカライズできることを示しています。
2D LIDARローカリゼーションのために暗黙の神経マップ表現を採用する他のアプローチとは対照的に、このアプローチにより、収束後およびほぼリアルタイムのグローバルローカリゼーション後のリアルタイムポーズ追跡を実行できます。
アプローチのコードは、https://github.com/prbonn/enm-mclで入手できます。

要約(オリジナル)

Globally localizing a mobile robot in a known map is often a foundation for enabling robots to navigate and operate autonomously. In indoor environments, traditional Monte Carlo localization based on occupancy grid maps is considered the gold standard, but its accuracy is limited by the representation capabilities of the occupancy grid map. In this paper, we address the problem of building an effective map representation that allows to accurately perform probabilistic global localization. To this end, we propose an implicit neural map representation that is able to capture positional and directional geometric features from 2D LiDAR scans to efficiently represent the environment and learn a neural network that is able to predict both, the non-projective signed distance and a direction-aware projective distance for an arbitrary point in the mapped environment. This combination of neural map representation with a light-weight neural network allows us to design an efficient observation model within a conventional Monte Carlo localization framework for pose estimation of a robot in real time. We evaluated our approach to indoor localization on a publicly available dataset for global localization and the experimental results indicate that our approach is able to more accurately localize a mobile robot than other localization approaches employing occupancy or existing neural map representations. In contrast to other approaches employing an implicit neural map representation for 2D LiDAR localization, our approach allows to perform real-time pose tracking after convergence and near real-time global localization. The code of our approach is available at: https://github.com/PRBonn/enm-mcl.

arxiv情報

著者 Haofei Kuang,Yue Pan,Xingguang Zhong,Louis Wiesmann,Jens Behley,Cyrill Stachniss
発行日 2025-03-30 15:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model

要約

完全な360 {\ deg}の視野でシーンの理解を必要とするモバイルロボットアプリケーションには、全方向性深度知覚が不可欠です。
カメラベースのセットアップは、ステレオ深度推定を使用して、高価なアクティブセンシングに依存せずに密集した高解像度の深度マップを生成することにより、費用対効果の高いオプションを提供します。
ただし、実際のデータが不足しているため、既存の全方向ステレオマッチングアプローチは、多様な環境、深さ範囲、および照明条件にわたって限られた深度精度のみを実現します。
Dfi-Omnistereoを提示します。これは、反復的最適化ベースのステレオマッチングアーキテクチャ内で相対的な単眼深度推定のための大規模な事前訓練の基礎モデルを活用する新しい最新のステレオマッチング方法です。
スケール不変の微調整の前に、全方向性ステレオマッチングに相対的な単眼深度の特徴を利用するための専用の2段階トレーニング戦略を紹介します。
DFI-OMNISTEREOは、実際のHelvipadデータセットで最新の結果を達成し、以前の最良の全部ステレオ法と比較して格差MAEを約16%削減します。

要約(オリジナル)

Omnidirectional depth perception is essential for mobile robotics applications that require scene understanding across a full 360{\deg} field of view. Camera-based setups offer a cost-effective option by using stereo depth estimation to generate dense, high-resolution depth maps without relying on expensive active sensing. However, existing omnidirectional stereo matching approaches achieve only limited depth accuracy across diverse environments, depth ranges, and lighting conditions, due to the scarcity of real-world data. We present DFI-OmniStereo, a novel omnidirectional stereo matching method that leverages a large-scale pre-trained foundation model for relative monocular depth estimation within an iterative optimization-based stereo matching architecture. We introduce a dedicated two-stage training strategy to utilize the relative monocular depth features for our omnidirectional stereo matching before scale-invariant fine-tuning. DFI-OmniStereo achieves state-of-the-art results on the real-world Helvipad dataset, reducing disparity MAE by approximately 16% compared to the previous best omnidirectional stereo method.

arxiv情報

著者 Jannik Endres,Oliver Hahn,Charles Corbière,Simone Schaub-Meyer,Stefan Roth,Alexandre Alahi
発行日 2025-03-30 16:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする