Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering

要約

地上ロボットの軌道データセット用の新しいビュー レンダリング アルゴリズム Mode-GS を紹介します。
私たちのアプローチは、既存の 3D ガウス スプラッティング アルゴリズムの制限を克服するように設計されたアンカー ガウス スプラットの使用に基づいています。
従来のニューラル レンダリング手法では、シーンの複雑さと多視点観察が不十分であるため、深刻なスプラット ドリフトが発生し、地上ロボット データセットの真のジオメトリ上でスプラットを修正できない可能性があります。
私たちの方法は、単眼の深度からピクセルに位置合わせされたアンカーを統合し、残差形式のガウス デコーダを使用してこれらのアンカーの周囲にガウス スプラットを生成します。
単眼深度の固有のスケール曖昧さに対処するために、ビューごとの深度スケールでアンカーをパラメータ化し、オンライン スケール キャリブレーションにスケール一貫性のある深度損失を採用します。
私たちの方法により、PSNR、SSIM、LPIPS メトリクスに基づいて、自由な軌道パターンを持つ地上シーンでのレンダリング パフォーマンスが向上し、R3LIVE オドメトリ データセットと戦車と寺院のデータセットで最先端のレンダリング パフォーマンスが実現します。

要約(オリジナル)

We present a novel-view rendering algorithm, Mode-GS, for ground-robot trajectory datasets. Our approach is based on using anchored Gaussian splats, which are designed to overcome the limitations of existing 3D Gaussian splatting algorithms. Prior neural rendering methods suffer from severe splat drift due to scene complexity and insufficient multi-view observation, and can fail to fix splats on the true geometry in ground-robot datasets. Our method integrates pixel-aligned anchors from monocular depths and generates Gaussian splats around these anchors using residual-form Gaussian decoders. To address the inherent scale ambiguity of monocular depth, we parameterize anchors with per-view depth-scales and employ scale-consistent depth loss for online scale calibration. Our method results in improved rendering performance, based on PSNR, SSIM, and LPIPS metrics, in ground scenes with free trajectory patterns, and achieves state-of-the-art rendering performance on the R3LIVE odometry dataset and the Tanks and Temples dataset.

arxiv情報

著者 Yonghan Lee,Jaehoon Choi,Dongki Jung,Jaeseong Yun,Soohyun Ryu,Dinesh Manocha,Suyong Yeon
発行日 2024-10-06 23:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

A Universal Formulation for Path-Parametric Planning and Control

要約

この研究では、パスパラメトリックの計画と制御のための統一フレームワークを提示します。
この定式化は、従来のパスフォローイングから最新のコンタリングまたは進歩を最大化するモデルの予測制御と強化学習に至るまで、パスパラメトリック手法の全範囲を単一のフレームワークの下で標準化するため、普遍的です。
この普遍性の基礎となる要素は 2 つあります。第 1 に、特異点のない、滑らかで微分可能な移動フレームを計算できるコンパクトで効率的な手法を提示します。
第 2 に、パラメトリック速度や移動フレームに関する事前の仮定なしに、任意の曲線に適用できるデカルト座標の空間パス パラメータ化を導出します。これは、前述のパス パラメータ化方法と完全に相互作用します。
これら 2 つの要素を組み合わせることで、文献にある既存のパスパラメトリック手法を統合する計画および制御フレームワークが実現します。
これらすべてのアプローチを統合することを目指して、提示されたコンテンツを実装するソフトウェア ライブラリである PACOR をオープンソースにし、それによってパスパラメトリックな計画と制御方法を定式化するための自己完結型ツールキットを提供します。

要約(オリジナル)

This work presents a unified framework for path-parametric planning and control. This formulation is universal as it standardizes the entire spectrum of path-parametric techniques — from traditional path following to more recent contouring or progress-maximizing Model Predictive Control and Reinforcement Learning — under a single framework. The ingredients underlying this universality are twofold: First, we present a compact and efficient technique capable of computing singularity-free, smooth and differentiable moving frames. Second, we derive a spatial path parameterization of the Cartesian coordinates applicable to any arbitrary curve without prior assumptions on its parametric speed or moving frame, and that perfectly interplays with the aforementioned path parameterization method. The combination of these two ingredients leads to a planning and control framework that brings togehter existing path-parametric techniques in literature. Aiming to unify all these approaches, we open source PACOR, a software library that implements the presented content, thereby providing a self-contained toolkit for the formulation of path-parametric planning and control methods.

arxiv情報

著者 Jon Arrizabalaga,Markus Ryll
発行日 2024-10-07 00:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting

要約

3D ガウス スプラッティング (3DGS) を使用したロボット マニピュレータのアクティブな次善のビューとタッチ選択のためのフレームワークを提案します。
3DGS は、フォトリアリスティックかつ幾何学的に正確な方法でシーンを表現できるため、ロボット工学にとって有用な明示的な 3D シーン表現として浮上しています。
ただし、効率要件を考慮してビュー数が制限されている現実世界のオンライン ロボット シーンでは、ビューが重複して冗長であることが多いため、3DGS のランダムなビュー選択は非現実的になります。
私たちは、エンドツーエンドのオンライン トレーニングとアクティブ ビュー選択パイプラインを提案することで、この問題に対処します。これにより、少数ビューのロボット設定で 3DGS のパフォーマンスが向上します。
まず、セグメント エニシング モデル 2 (SAM2) を使用した新しいセマンティック深度アライメント手法を使用して、少数ショット 3DGS のパフォーマンスを向上させます。SAM2 には、ピアソン深度と表面法線損失を追加して、現実世界のシーンの色と深度の再構成を改善します。
次に、3DGS の次に最適なビュー選択方法である FisherRF を拡張し、深度の不確実性に基づいてビューとタッチ ポーズを選択します。
ライブ 3DGS トレーニング中に、実際のロボット システムでオンライン ビュー選択を実行します。
私たちはショット数の少ない GS シーンの改善を推進し、深度ベースの FisherRF をそれらのシーンに拡張し、困難なロボット シーンの定性的および量的改善の両方を実証します。
詳細については、https://armlabstanford.github.io/next-best-sense のプロジェクト ページをご覧ください。

要約(オリジナル)

We propose a framework for active next best view and touch selection for robotic manipulators using 3D Gaussian Splatting (3DGS). 3DGS is emerging as a useful explicit 3D scene representation for robotics, as it has the ability to represent scenes in a both photorealistic and geometrically accurate manner. However, in real-world, online robotic scenes where the number of views is limited given efficiency requirements, random view selection for 3DGS becomes impractical as views are often overlapping and redundant. We address this issue by proposing an end-to-end online training and active view selection pipeline, which enhances the performance of 3DGS in few-view robotics settings. We first elevate the performance of few-shot 3DGS with a novel semantic depth alignment method using Segment Anything Model 2 (SAM2) that we supplement with Pearson depth and surface normal loss to improve color and depth reconstruction of real-world scenes. We then extend FisherRF, a next-best-view selection method for 3DGS, to select views and touch poses based on depth uncertainty. We perform online view selection on a real robot system during live 3DGS training. We motivate our improvements to few-shot GS scenes, and extend depth-based FisherRF to them, where we demonstrate both qualitative and quantitative improvements on challenging robot scenes. For more information, please see our project page at https://armlabstanford.github.io/next-best-sense.

arxiv情報

著者 Matthew Strong,Boshu Lei,Aiden Swann,Wen Jiang,Kostas Daniilidis,Monroe Kennedy III
発行日 2024-10-07 01:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Adaptive Step Duration for Precise Foot Placement: Achieving Robust Bipedal Locomotion on Terrains with Restricted Footholds

要約

二足歩行のための従来のワンステッププレビュー計画アルゴリズムは、飛び石など足場が制限された地形を歩くときに実行可能な歩行を生成するのに苦労します。
このような制限を克服するために、本稿では、歩行ロボットの発散運動成分 (DCM) のステップごとの離散進化に基づく、新しいマルチステップ プレビュー足配置計画アルゴリズムを紹介します。
私たちが提案するアプローチは、制約の下で足を最適に配置するためにステップ持続時間と足のスイング軌道を適応的に変更することで、ロボットの長期的な安定性を高め、実行可能な足場に厳しい制約がある環境をナビゲートする能力を大幅に向上させます。
複雑な飛び石構成と外部摂動を使用したさまざまなシミュレーション シナリオを通じて、その有効性を実証します。
これらのテストでは、外乱があっても足場が制限された地形を移動する性能が向上していることが実証されました。

要約(オリジナル)

Traditional one-step preview planning algorithms for bipedal locomotion struggle to generate viable gaits when walking across terrains with restricted footholds, such as stepping stones. To overcome such limitations, this paper introduces a novel multi-step preview foot placement planning algorithm based on the step-to-step discrete evolution of the Divergent Component of Motion (DCM) of walking robots. Our proposed approach adaptively changes the step duration and the swing foot trajectory for optimal foot placement under constraints, thereby enhancing the long-term stability of the robot and significantly improving its ability to navigate environments with tight constraints on viable footholds. We demonstrate its effectiveness through various simulation scenarios with complex stepping-stone configurations and external perturbations. These tests underscore its improved performance for navigating foothold-restricted terrains, even with external disturbances.

arxiv情報

著者 Zhaoyang Xiang,Victor Paredes,Guillermo A. Castillo,Ayonga Hereid
発行日 2024-10-07 01:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL

要約

ロボットに期待される業務の一つとして調理動作への需要が高まっているが、現実世界におけるロボットによる新たなレシピ記述に基づく一連の調理動作はまだ実現されていない。
本研究では、大規模言語モデル(LLM)を用いた現実世界で実行可能なロボット調理行動計画とPDDL記述の古典的計画、およびVisionを用いた少数のデータからの食材状態認識学習を統合したロボットシステムを提案する。
言語モデル (VLM)。
双腕車輪型ロボットPR2が実世界環境下でアレンジされた新レシピによる調理を実行する実験に成功し、提案システムの有効性を確認した。

要約(オリジナル)

Although there is a growing demand for cooking behaviours as one of the expected tasks for robots, a series of cooking behaviours based on new recipe descriptions by robots in the real world has not yet been realised. In this study, we propose a robot system that integrates real-world executable robot cooking behaviour planning using the Large Language Model (LLM) and classical planning of PDDL descriptions, and food ingredient state recognition learning from a small number of data using the Vision-Language model (VLM). We succeeded in experiments in which PR2, a dual-armed wheeled robot, performed cooking from arranged new recipes in a real-world environment, and confirmed the effectiveness of the proposed system.

arxiv情報

著者 Naoaki Kanazawa,Kento Kawaharazuka,Yoshiki Obinata,Kei Okada,Masayuki Inaba
発行日 2024-10-07 01:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

ViewActive: Active viewpoint optimization from a single image

要約

物体を観察するとき、人間は空間視覚化と精神回転能力の恩恵を受けて、現在の観察に基づいて潜在的な最適な視点を思い描くことができます。
この機能は、ロボットが動作中に効率的かつ堅牢なシーン認識を実現できるようにするために非常に重要です。最適な視点は、2D 画像でシーンを正確に表現するために不可欠で有益な機能を提供し、それによって下流のタスクを強化するためです。
この人間のようなアクティブな視点最適化機能をロボットに与えるために、現在の 2D 画像入力のみに基づいて視点最適化のガイダンスを提供する、アスペクト グラフからインスピレーションを得た最新の機械学習アプローチである ViewActive を提案します。
具体的には、アスペクト グラフに似た視点品質分布のコンパクトで一貫した表現である 3D 視点品質フィールド (VQF) を導入します。これは、自己オクルージョン率、占有を意識した表面法線エントロピー、
そして視覚的なエントロピー。
事前トレーニングされた画像エンコーダーを利用して、堅牢な視覚的および意味論的特徴を抽出し、それが 3D VQF にデコードされ、目に見えないカテゴリを含む多様なオブジェクトにわたってモデルを効果的に一般化できるようになります。
軽量の ViewActive ネットワーク (単一 GPU で 72 FPS) は、最先端の物体認識パイプラインのパフォーマンスを大幅に向上させ、ロボット アプリケーションのリアルタイムの動作計画に統合できます。
私たちのコードとデータセットは、https://github.com/jiayi-wu-umd/ViewActive から入手できます。

要約(オリジナル)

When observing objects, humans benefit from their spatial visualization and mental rotation ability to envision potential optimal viewpoints based on the current observation. This capability is crucial for enabling robots to achieve efficient and robust scene perception during operation, as optimal viewpoints provide essential and informative features for accurately representing scenes in 2D images, thereby enhancing downstream tasks. To endow robots with this human-like active viewpoint optimization capability, we propose ViewActive, a modernized machine learning approach drawing inspiration from aspect graph, which provides viewpoint optimization guidance based solely on the current 2D image input. Specifically, we introduce the 3D Viewpoint Quality Field (VQF), a compact and consistent representation of viewpoint quality distribution similar to an aspect graph, composed of three general-purpose viewpoint quality metrics: self-occlusion ratio, occupancy-aware surface normal entropy, and visual entropy. We utilize pre-trained image encoders to extract robust visual and semantic features, which are then decoded into the 3D VQF, allowing our model to generalize effectively across diverse objects, including unseen categories. The lightweight ViewActive network (72 FPS on a single GPU) significantly enhances the performance of state-of-the-art object recognition pipelines and can be integrated into real-time motion planning for robotic applications. Our code and dataset are available here: https://github.com/jiayi-wu-umd/ViewActive.

arxiv情報

著者 Jiayi Wu,Xiaomin Lin,Botao He,Cornelia Fermuller,Yiannis Aloimonos
発行日 2024-10-07 02:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Domains as Objectives: Domain-Uncertainty-Aware Policy Optimization through Explicit Multi-Domain Convex Coverage Set Learning

要約

不確実性の問題は現実世界のロボット工学の問題の特徴であり、実際のアプリケーションのタスクを成功させるためには、あらゆる制御フレームワークが不確実性の問題に対処する必要があります。
強化学習も例外ではなく、モデルの不確実性や仕様の誤りから生じる認識の不確実性は、シミュレーションと現実のギャップによってよく捉えられる課題です。
この問題に対する簡単な解決策はドメイン ランダム化 (DR) ですが、残念ながらエージェントが保守的な結果になる可能性があります。
この保守性の改善策として、リカレント ニューラル ネットワーク ベースのコントローラーとともに、ランダム化されたドメインに関する追加情報を取得するユニバーサル ポリシーの使用が代替ソリューションとして浮上しています。
不確実性を認識したユニバーサル ポリシーは、展開中のシステム識別の不確実性を考慮できる特に魅力的なソリューションを提供します。
この論文では、不確実性を考慮したポリシーを効率的に最適化するという課題が、多目的強化学習 (MORL) コンテキスト内で凸カバレッジ セット (CCS) 問題を解決するものとして根本的に再構成できることを明らかにします。
各ドメインのパフォーマンスが独立した目標として扱われる新しいマルコフ意思決定プロセス (MDP) フレームワークを導入することで、不確実性を認識したポリシーのトレーニングを MORL アプローチと統合します。
この接続により、ドメインのランダム化 (DR) に MORL アルゴリズムを適用できるようになり、より効率的なポリシーの最適化が可能になります。
これを説明するために、DR 定式化における期待と一致する線形効用関数に焦点を当て、CCS を解決するために MORL 文献から適応された一連のアルゴリズムを提案し、不確実性を認識した政策のパフォーマンスを向上させる能力を実証します。

要約(オリジナル)

The problem of uncertainty is a feature of real world robotics problems and any control framework must contend with it in order to succeed in real applications tasks. Reinforcement Learning is no different, and epistemic uncertainty arising from model uncertainty or misspecification is a challenge well captured by the sim-to-real gap. A simple solution to this issue is domain randomization (DR), which unfortunately can result in conservative agents. As a remedy to this conservativeness, the use of universal policies that take additional information about the randomized domain has risen as an alternative solution, along with recurrent neural network-based controllers. Uncertainty-aware universal policies present a particularly compelling solution able to account for system identification uncertainties during deployment. In this paper, we reveal that the challenge of efficiently optimizing uncertainty-aware policies can be fundamentally reframed as solving the convex coverage set (CCS) problem within a multi-objective reinforcement learning (MORL) context. By introducing a novel Markov decision process (MDP) framework where each domain’s performance is treated as an independent objective, we unify the training of uncertainty-aware policies with MORL approaches. This connection enables the application of MORL algorithms for domain randomization (DR), allowing for more efficient policy optimization. To illustrate this, we focus on the linear utility function, which aligns with the expectation in DR formulations, and propose a series of algorithms adapted from the MORL literature to solve the CCS, demonstrating their ability to enhance the performance of uncertainty-aware policies.

arxiv情報

著者 Wendyam Eric Lionel Ilboudo,Taisuke Kobayashi,Takamitsu Matsubara
発行日 2024-10-07 03:19:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting

要約

Sim2Real の転送、特に RGB 画像に依存する操作ポリシーの場合、合成視覚データと現実世界の視覚データの間の大幅なドメインの変化により、ロボット工学における重要な課題が依然として残ります。
この論文では、RGB ベースの操作ポリシーの Sim2Real ギャップを削減するための主要なレンダリング プリミティブとしてガウス スプラッティングを利用する新しいフレームワークである SplatSim を提案します。
SplatSim は、シミュレータで従来のメッシュ表現をガウス スプラットに置き換えることにより、シミュレーションのスケーラビリティとコスト効率を維持しながら、非常にフォトリアリスティックな合成データを生成します。
SplatSim 内で操作ポリシーをトレーニングし、それらをゼロショット方式で実世界に展開することでフレームワークの有効性を実証し、平均成功率 86.25% を達成しました (実世界のデータでトレーニングされたポリシーの場合は 97.5%)。
ビデオはプロジェクト ページでご覧いただけます: https://splatsim.github.io

要約(オリジナル)

Sim2Real transfer, particularly for manipulation policies relying on RGB images, remains a critical challenge in robotics due to the significant domain shift between synthetic and real-world visual data. In this paper, we propose SplatSim, a novel framework that leverages Gaussian Splatting as the primary rendering primitive to reduce the Sim2Real gap for RGB-based manipulation policies. By replacing traditional mesh representations with Gaussian Splats in simulators, SplatSim produces highly photorealistic synthetic data while maintaining the scalability and cost-efficiency of simulation. We demonstrate the effectiveness of our framework by training manipulation policies within SplatSim and deploying them in the real world in a zero-shot manner, achieving an average success rate of 86.25%, compared to 97.5% for policies trained on real-world data. Videos can be found on our project page: https://splatsim.github.io

arxiv情報

著者 Mohammad Nomaan Qureshi,Sparsh Garg,Francisco Yandun,David Held,George Kantor,Abhisesh Silwal
発行日 2024-10-07 03:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

A Framework for Guided Motion Planning

要約

ランダム化サンプリングベースのアルゴリズムは、問題が扱いにくいため、ロボットの動作計画に広く使用されており、実験的には幅広い問題事例に対して効果的です。
ほとんどの亜種は、検索空間の既知の基礎構造に関連するさまざまなヒューリスティックを使用してサンプリングにバイアスを加えます。
この研究では、ガイド スペースの概念を定義することによって、ガイド付き検索の直感的な概念を形式化します。
この新しい言語は、一見異なるように見える多くの従来のメソッドを同じフレームワークの下にカプセル化し、さまざまなアルゴリズムのこれまで隠されていた中心的な貢献であるガイダンスについて推論できるようにします。
さまざまな環境で既知のアルゴリズムでテストしたときに実験的に直感と一致するガイダンスを評価するための情報理論的方法を提案します。
ガイダンスの言語と評価により、既存の方法の改善が示唆され、複数のソースからのガイダンスを組み合わせたシンプルなハイブリッド アルゴリズムが可能になります。

要約(オリジナル)

Randomized sampling based algorithms are widely used in robot motion planning due to the problem’s intractability, and are experimentally effective on a wide range of problem instances. Most variants bias their sampling using various heuristics related to the known underlying structure of the search space. In this work, we formalize the intuitive notion of guided search by defining the concept of a guiding space. This new language encapsulates many seemingly distinct prior methods under the same framework, and allows us to reason about guidance, a previously obscured core contribution of different algorithms. We suggest an information theoretic method to evaluate guidance, which experimentally matches intuition when tested on known algorithms in a variety of environments. The language and evaluation of guidance suggests improvements to existing methods, and allows for simple hybrid algorithms that combine guidance from multiple sources.

arxiv情報

著者 Amnon Attali,Stav Ashur,Isaac Burton Love,Courtney McBeth,James Motes,Marco Morales,Nancy M. Amato
発行日 2024-10-07 03:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Data-driven Diffusion Models for Enhancing Safety in Autonomous Vehicle Traffic Simulations

要約

安全性が重要な交通シナリオは、自動運転システムの開発と検証に不可欠です。
これらのシナリオは、現実の環境ではめったに遭遇しない高リスクの状況下での車両の反応についての重要な洞察を提供します。
クリティカル シナリオ生成における最近の進歩により、有効性と現実性の点で、拡散ベースのアプローチが従来の生成モデルよりも優れていることが実証されています。
しかし、現在の普及ベースの方法は、ドライバーの行動と交通密度の情報の複雑さに適切に対処できず、どちらもドライバーの意思決定プロセスに大きな影響を与えます。
この研究では、動作の複雑さと交通密度を組み込んだ拡散モデルに敵対的誘導機能を導入することで、これらの制限を克服する新しいアプローチを提案します。これにより、より効果的で現実的な安全クリティカルな交通シナリオの生成が強化されます。
提案手法は有効性と現実性の2つの評価指標で評価されています。提案手法は有効性と現実性の2つの評価指標で評価されており、他の最先端手法と比較して有効性が高いことが実証されています。

要約(オリジナル)

Safety-critical traffic scenarios are integral to the development and validation of autonomous driving systems. These scenarios provide crucial insights into vehicle responses under high-risk conditions rarely encountered in real-world settings. Recent advancements in critical scenario generation have demonstrated the superiority of diffusion-based approaches over traditional generative models in terms of effectiveness and realism. However, current diffusion-based methods fail to adequately address the complexity of driver behavior and traffic density information, both of which significantly influence driver decision-making processes. In this work, we present a novel approach to overcome these limitations by introducing adversarial guidance functions for diffusion models that incorporate behavior complexity and traffic density, thereby enhancing the generation of more effective and realistic safety-critical traffic scenarios. The proposed method is evaluated on two evaluation metrics: effectiveness and realism.The proposed method is evaluated on two evaluation metrics: effectiveness and realism, demonstrating better efficacy as compared to other state-of-the-art methods.

arxiv情報

著者 Jinxiong Lu,Shoaib Azam,Gokhan Alcan,Ville Kyrki
発行日 2024-10-07 07:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする