Optimizing NeRF-based SLAM with Trajectory Smoothness Constraints

要約

Neural Radiance Fields (NeRF) とカメラ軌道の共同最適化は、その優れた高密度マッピング品質と一貫性により、SLAM タスクに広く適用されています。
NeRF ベースの SLAM は、暗黙的なマップ表現による制約を使用してカメラのポーズを学習します。
この形式の制約から生じる現象として広く観察されているのは、ぎくしゃくした物理的に非現実的な推定カメラ モーションであり、これがマップの品質に影響を与えます。
現在の NeRF ベースの SLAM のこの欠陥に対処するために、本論文では TS-SLAM (TS for Trajectory Smoothness) を提案します。
滑らかなカメラの動きを保証する連続加速を伴う均一な 3 次 B スプラインで表現することで、カメラの軌跡に滑らかさの制約を導入します。
TS-SLAM は、B スプラインの微分可能性とローカル制御特性の恩恵を受けて、スライディング ウィンドウ パラダイムを使用して制御点をエンドツーエンドで段階的に学習できます。
さらに、さらに滑らかな軌道を描く前に、ダイナミクスを利用してカメラの軌道を規則化します。
実験結果は、上記の平滑性制約を採用しない NeRF ベースの SLAM と比較して、TS-SLAM が優れた軌道精度を実現し、マッピング品質を向上させることを示しています。

要約(オリジナル)

The joint optimization of Neural Radiance Fields (NeRF) and camera trajectories has been widely applied in SLAM tasks due to its superior dense mapping quality and consistency. NeRF-based SLAM learns camera poses using constraints by implicit map representation. A widely observed phenomenon that results from the constraints of this form is jerky and physically unrealistic estimated camera motion, which in turn affects the map quality. To address this deficiency of current NeRF-based SLAM, we propose in this paper TS-SLAM (TS for Trajectory Smoothness). It introduces smoothness constraints on camera trajectories by representing them with uniform cubic B-splines with continuous acceleration that guarantees smooth camera motion. Benefiting from the differentiability and local control properties of B-splines, TS-SLAM can incrementally learn the control points end-to-end using a sliding window paradigm. Additionally, we regularize camera trajectories by exploiting the dynamics prior to further smooth trajectories. Experimental results demonstrate that TS-SLAM achieves superior trajectory accuracy and improves mapping quality versus NeRF-based SLAM that does not employ the above smoothness constraints.

arxiv情報

著者 Yicheng He,Guangcheng Chen,Hong Zhang
発行日 2024-10-11 12:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Optimizing NeRF-based SLAM with Trajectory Smoothness Constraints はコメントを受け付けていません

Hybrid Filtering Heuristic for the Sensor-Placement Problem to Discretize 2D Continuous Environments

要約

この論文では、効率的なタスク指向のルート計画のために、大規模で複雑な連続 2D 環境をグラフに離散化するというコンテキスト内でセンサー配置問題 (SPP) を取り上げます。
SPP は、一般的な可視性モデルを考慮しながら、ユーザー定義のカバレッジ率を達成するために必要なセンサーの数を最小限に抑えることを目的としています。
我々は、ハイブリッド フィルタリング ヒューリスティック (HFH) フレームワークを提案します。これは、フィルタリング ステップを組み込んで、既存のセンサー配置方法の出力を強化または組み合わせます。
このステップにより、冗長なセンサーやカバレッジにわずかに寄与するセンサーが排除され、カバレッジ率が目的の間隔内に維持されることが保証されます。
HFH の 2 つのバージョンを実装しています。基本バージョンと、領域クリッピングを高速化するバケット化として知られる前処理技術を組み込んだバリアント HFHB です。
大規模で複雑な多角形環境のデータセットで HFH と HFHB を評価し、無制限および限定範囲の両方の全方位可視モデルの下でいくつかのベースライン手法と比較します。
この結果は、所望のカバレッジ率を達成するために必要なセンサーの数の点で、HFH と HFHB がベースラインを上回っていることを示しています。
さらに、HFHB は、より競争力のあるベースライン メソッドの実行時間を大幅に短縮します。
また、HFHB を位置特定の不確実性を伴う可視モデルに適用し、一定レベルの不確実性までの有効性を実証します。

要約(オリジナル)

This paper addresses the sensor-placement problem (SPP) within the context of discretizing large, complex continuous 2D environments into graphs for efficient task-oriented route planning. The SPP aims to minimize the number of sensors required to achieve a user-defined coverage ratio while considering a general visibility model. We propose the hybrid filtering heuristic (HFH) framework, which enhances or combines outputs of existing sensor-placement methods, incorporating a filtering step. This step eliminates redundant sensors or those contributing marginally to the coverage, ensuring the coverage ratio remains within the desired interval. We implement two versions of HFH: the basic version and a variant, HFHB, incorporating a preprocessing technique known as bucketing to accelerate region clipping. We evaluate HFH and HFHB on a dataset of large, complex polygonal environments, comparing them to several baseline methods under both unlimited and limited-range omnidirectional visibility models. The results demonstrate that HFH and HFHB outperform baselines in terms of the number of sensors required to achieve the desired coverage ratio. Additionally, HFHB significantly reduces the runtime of more competitive baseline methods. We also adapt HFHB to a visibility model with localization uncertainty, demonstrating its effectiveness up to a certain level of uncertainty.

arxiv情報

著者 Jan Mikula,Miroslav Kulich
発行日 2024-10-11 13:04:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.RO | Hybrid Filtering Heuristic for the Sensor-Placement Problem to Discretize 2D Continuous Environments はコメントを受け付けていません

MEMROC: Multi-Eye to Mobile RObot Calibration

要約

この論文では、移動ロボットの基準フレームに対して複数のカメラを正確に校正するプロセスを簡素化する、新しいモーションベースの校正方法である MEMROC (Multi-Eye to Mobile RObot Calibration) について説明します。
MEMROC は既知のキャリブレーション パターンを利用して、最適化プロセス中に少ない画像数で正確なキャリブレーションを容易にします。
さらに、包括的な 6-DoF 外部キャリブレーションのために堅牢な接地面検出を活用し、完全なカメラの姿勢を推定するのに苦労する多くの既存の方法の重大な制限を克服します。
提案された方法は、日常の使用、操作調整、または移動ロボットの動きによる振動によってカメラがわずかに移動したり位置が変化したりする可能性がある動的環境における頻繁な再キャリブレーションの必要性に対処します。
MEMROC は、ノイズの多いオドメトリ データに対して顕著な堅牢性を示し、必要なキャリブレーション入力データは最小限です。
この組み合わせにより、移動ロボットが関与する日常業務に非常に適しています。
合成データと実際のデータの両方に対する包括的な一連の実験により、精度、堅牢性、使いやすさの点で既存の最先端の手法を上回る MEMROC の効率性が証明されています。
さらなる研究を促進するために、コードを https://github.com/davidea97/MEMROC.git で公開しました。

要約(オリジナル)

This paper presents MEMROC (Multi-Eye to Mobile RObot Calibration), a novel motion-based calibration method that simplifies the process of accurately calibrating multiple cameras relative to a mobile robot’s reference frame. MEMROC utilizes a known calibration pattern to facilitate accurate calibration with a lower number of images during the optimization process. Additionally, it leverages robust ground plane detection for comprehensive 6-DoF extrinsic calibration, overcoming a critical limitation of many existing methods that struggle to estimate the complete camera pose. The proposed method addresses the need for frequent recalibration in dynamic environments, where cameras may shift slightly or alter their positions due to daily usage, operational adjustments, or vibrations from mobile robot movements. MEMROC exhibits remarkable robustness to noisy odometry data, requiring minimal calibration input data. This combination makes it highly suitable for daily operations involving mobile robots. A comprehensive set of experiments on both synthetic and real data proves MEMROC’s efficiency, surpassing existing state-of-the-art methods in terms of accuracy, robustness, and ease of use. To facilitate further research, we have made our code publicly available at https://github.com/davidea97/MEMROC.git.

arxiv情報

著者 Davide Allegro,Matteo Terreran,Stefano Ghidoni
発行日 2024-10-11 13:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MEMROC: Multi-Eye to Mobile RObot Calibration はコメントを受け付けていません

DCNet: A Data-Driven Framework for DVL

要約

自律型水中ビークル (AUV) は、さまざまな用途に使用される水中ロボット プラットフォームです。
AUV のナビゲーション ソリューションは、慣性センサーとドップラー速度ログ (DVL) の融合に大きく依存しており、後者は正確な速度更新を提供します。
正確なナビゲーションを保証するために、ミッションが誤差項の推定を開始する前に DVL キャリブレーションが行われます。
キャリブレーション中、AUV は複雑な軌道をたどり、非線形推定フィルターを使用して誤差項を推定します。
このペーパーでは、革新的な方法で 2 次元コンボリューション カーネルを利用するデータ駆動型フレームワークである DCNet を紹介します。
DCNet と当社が提案する DVL 誤差モデルを使用して、迅速な校正手順を提供します。
これは、ほぼ等速の軌道に適用できます。
私たちが提案したアプローチをトレーニングしてテストするために、実際の DVL 記録された測定値を含む 276 分のデータセットが使用されました。
低パフォーマンスの DVL を使用した場合、ベースラインのアプローチと比較して、精度が平均 70% 向上し、キャリブレーション時間が 80% 向上することが実証されました。
これらの改良の結果、低コストの DVL を採用した AUV は、より高い精度とより短い校正時間を実現し、簡単なほぼ等速の校正軌道を適用することができます。
私たちの成果は、低コストで高精度の DVL を利用した海洋ロボット工学の新たな用途も開拓します。

要約(オリジナル)

Autonomous underwater vehicles (AUVs) are underwater robotic platforms used in a variety of applications. An AUV’s navigation solution relies heavily on the fusion of inertial sensors and Doppler velocity logs (DVL), where the latter delivers accurate velocity updates. To ensure accurate navigation, a DVL calibration is undertaken before the mission begins to estimate its error terms. During calibration, the AUV follows a complex trajectory and employs nonlinear estimation filters to estimate error terms. In this paper, we introduce DCNet, a data-driven framework that utilizes a two-dimensional convolution kernel in an innovative way. Using DCNet and our proposed DVL error model, we offer a rapid calibration procedure. This can be applied to a trajectory with a nearly constant velocity. To train and test our proposed approach a dataset of 276 minutes long with real DVL recorded measurements was used. We demonstrated an average improvement of 70% in accuracy and 80% improvement in calibration time, compared to the baseline approach, with a low-performance DVL. As a result of those improvements, an AUV employing a low-cost DVL, can achieve higher accuracy, shorter calibration time, and apply a simple nearly constant velocity calibration trajectory. Our results also open up new applications for marine robotics utilizing low-cost, high-accurate DVLs.

arxiv情報

著者 Zeev Yampolsky,Itzik Klein
発行日 2024-10-11 13:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DCNet: A Data-Driven Framework for DVL はコメントを受け付けていません

SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics

要約

潜在的なダイナミクス モデルを学習すると、エージェントによる環境の理解のタスクに依存しない表現が得られます。
この知識をモデルベースの強化学習に活用すると、想像上のロールアウト内で学習することで、モデルフリーの方法よりもサンプル効率を向上させる可能性があります。
さらに、潜在空間は行動モデルへの入力として機能するため、ワールド モデルによって学習された情報表現により、必要なスキルの効率的な学習が促進されます。
既存の手法のほとんどは、環境の状態の全体的な表現に依存しています。
対照的に、人間は物体とその相互作用について推論し、行動が周囲の特定の部分にどのような影響を与えるかを予測します。
これに触発されて、ピクセル入力から教師なしの方法でオブジェクト中心のダイナミクス モデルを学習する新しいアルゴリズムであるオブジェクト中心の潜在ダイナミクス (SOLD) に対するスロット アテンションを提案します。
構造化された潜在空間はモデルの解釈可能性を向上させるだけでなく、動作モデルが推論するための貴重な入力空間も提供することを実証します。
私たちの結果は、リレーショナル推論と低レベルの操作能力の両方を評価するさまざまなベンチマーク ロボット環境において、SOLD が最先端のモデルベースの RL アルゴリズムである DreamerV3 よりも優れていることを示しています。
ビデオは https://slot-latent-dynamics.github.io/ でご覧いただけます。

要約(オリジナル)

Learning a latent dynamics model provides a task-agnostic representation of an agent’s understanding of its environment. Leveraging this knowledge for model-based reinforcement learning holds the potential to improve sample efficiency over model-free methods by learning inside imagined rollouts. Furthermore, because the latent space serves as input to behavior models, the informative representations learned by the world model facilitate efficient learning of desired skills. Most existing methods rely on holistic representations of the environment’s state. In contrast, humans reason about objects and their interactions, forecasting how actions will affect specific parts of their surroundings. Inspired by this, we propose Slot-Attention for Object-centric Latent Dynamics (SOLD), a novel algorithm that learns object-centric dynamics models in an unsupervised manner from pixel inputs. We demonstrate that the structured latent space not only improves model interpretability but also provides a valuable input space for behavior models to reason over. Our results show that SOLD outperforms DreamerV3, a state-of-the-art model-based RL algorithm, across a range of benchmark robotic environments that evaluate for both relational reasoning and low-level manipulation capabilities. Videos are available at https://slot-latent-dynamics.github.io/.

arxiv情報

著者 Malte Mosbach,Jan Niklas Ewertz,Angel Villar-Corrales,Sven Behnke
発行日 2024-10-11 14:03:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics はコメントを受け付けていません

Learning Spatial Bimanual Action Models Based on Affordance Regions and Human Demonstrations

要約

この論文では、関係するオブジェクトのアフォーダンス領域間の空間制約 (アフォーダンス制約と呼ばれます) を抽出することにより、人間のデモンストレーションから両手操作アクションを学習するための新しいアプローチを紹介します。
アフォーダンス領域は、エージェントにインタラクションの可能性を提供するオブジェクト部分として定義されます。
たとえば、ボトルの底は物体を表面に置き、注ぎ口は入っている液体を注ぐことができます。
我々は、人間のデモンストレーションにおけるアフォーダンス制約の変化を学習して、オブジェクトの相互作用を表す空間的両手操作モデルを構築するための新しいアプローチを提案します。
これらの空間両手操作モデルにエンコードされた情報を活用するために、初期シーン、学習されたアフォーダンス制約、ロボットの運動学を考慮しながら、複数の実行キーポイントにわたって最適なオブジェクト構成を決定する最適化問題を定式化します。
2 つのタスク例 (飲み物を注ぐことと生地を丸めること) を使用してシミュレーションでアプローチを評価し、アフォーダンス制約の 3 つの異なる定義を比較します: (i) デカルト空間におけるアフォーダンス領域間のコンポーネントごとの距離、(ii) アフォーダンス領域間のコンポーネントごとの距離
(iii) 手動で定義された象徴的な空間アフォーダンス制約の満足度。

要約(オリジナル)

In this paper, we present a novel approach for learning bimanual manipulation actions from human demonstration by extracting spatial constraints between affordance regions, termed affordance constraints, of the objects involved. Affordance regions are defined as object parts that provide interaction possibilities to an agent. For example, the bottom of a bottle affords the object to be placed on a surface, while its spout affords the contained liquid to be poured. We propose a novel approach to learn changes of affordance constraints in human demonstration to construct spatial bimanual action models representing object interactions. To exploit the information encoded in these spatial bimanual action models, we formulate an optimization problem to determine optimal object configurations across multiple execution keypoints while taking into account the initial scene, the learned affordance constraints, and the robot’s kinematics. We evaluate the approach in simulation with two example tasks (pouring drinks and rolling dough) and compare three different definitions of affordance constraints: (i) component-wise distances between affordance regions in Cartesian space, (ii) component-wise distances between affordance regions in cylindrical space, and (iii) degrees of satisfaction of manually defined symbolic spatial affordance constraints.

arxiv情報

著者 Björn S. Plonka,Christian Dreher,Andre Meixner,Rainer Kartmann,Tamim Asfour
発行日 2024-10-11 14:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Spatial Bimanual Action Models Based on Affordance Regions and Human Demonstrations はコメントを受け付けていません

Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback

要約

インタラクティブな模倣学習 (IL) では、不確実性の定量化により、学習者 (つまり、ロボット) がオンラインで専門家 (つまり、人間) から追加のフィードバックを積極的に求めることで、展開中に発生する分布の変化に対処する方法が提供されます。
以前の研究では、アンサンブル不一致やモンテカルロ ドロップアウトなどのメカニズムを使用して、ブラックボックス IL ポリシーが不確実である場合を定量化しました。
ただし、これらのアプローチは、展開時の分布の変化に直面した場合、過信した見積もりにつながる可能性があります。
その代わりに、ロボットの不確実性をオンラインで適応させるために、展開時に受け取った専門家による人間のフィードバックを活用できる不確実性定量化アルゴリズムが必要であると私たちは主張します。
これに取り組むために、私たちはオンライン等形予測を利用します。これは、グラウンド トゥルース ラベルのストリームを与えられてオンラインで予測区間を構築するための分布を必要としない方法です。
ただし、インタラクティブ IL 設定では人間のラベルが断続的に表示されます。
したがって、等角予測の側から、断続的ラベルの確率モデルを活用し、漸近的なカバレッジ保証を維持し、所望のカバレッジ レベルを経験的に達成する、断続的分位点追跡 (IQT) と呼ばれる新しい不確実性定量化アルゴリズムを導入します。
インタラクティブ IL 側からは、ロボットが展開時の不確実性の信頼できる尺度として IQT によって調整された予測間隔を使用して、より専門的なフィードバックを積極的に問い合わせる新しいアプローチである ConformalDAgger を開発しました。
専門家のポリシーの変更により分布シフトが存在する (または存在しない) シナリオで、ConformalDAgger を以前の不確実性を認識した DAgger 手法と比較します。
7DOF ロボット マニピュレータのシミュレーションおよびハードウェア展開では、ConformalDAgger が専門家が移動する際に高い不確実性を検出し、ベースラインと比較して介入回数を増やすことで、ロボットが新しい動作をより迅速に学習できることがわかりました。

要約(オリジナル)

In interactive imitation learning (IL), uncertainty quantification offers a way for the learner (i.e. robot) to contend with distribution shifts encountered during deployment by actively seeking additional feedback from an expert (i.e. human) online. Prior works use mechanisms like ensemble disagreement or Monte Carlo dropout to quantify when black-box IL policies are uncertain; however, these approaches can lead to overconfident estimates when faced with deployment-time distribution shifts. Instead, we contend that we need uncertainty quantification algorithms that can leverage the expert human feedback received during deployment time to adapt the robot’s uncertainty online. To tackle this, we draw upon online conformal prediction, a distribution-free method for constructing prediction intervals online given a stream of ground-truth labels. Human labels, however, are intermittent in the interactive IL setting. Thus, from the conformal prediction side, we introduce a novel uncertainty quantification algorithm called intermittent quantile tracking (IQT) that leverages a probabilistic model of intermittent labels, maintains asymptotic coverage guarantees, and empirically achieves desired coverage levels. From the interactive IL side, we develop ConformalDAgger, a new approach wherein the robot uses prediction intervals calibrated by IQT as a reliable measure of deployment-time uncertainty to actively query for more expert feedback. We compare ConformalDAgger to prior uncertainty-aware DAgger methods in scenarios where the distribution shift is (and isn’t) present because of changes in the expert’s policy. We find that in simulated and hardware deployments on a 7DOF robotic manipulator, ConformalDAgger detects high uncertainty when the expert shifts and increases the number of interventions compared to baselines, allowing the robot to more quickly learn the new behavior.

arxiv情報

著者 Michelle Zhao,Reid Simmons,Henny Admoni,Aaditya Ramdas,Andrea Bajcsy
発行日 2024-10-11 14:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO | Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback はコメントを受け付けていません

Social Zone as a Barrier Function for Socially-Compliant Robot Navigation

要約

この研究は、社会規範をロボットのナビゲーションに統合するという課題に取り組んでいます。これは、ロボットが人間中心の環境で安全かつ効率的に動作することを保証するために不可欠です。
社会規範は人々の間で暗黙的に理解されていることが多く、明示的に定義してロボット システムに実装するのは困難です。
これを克服するために、私たちは包括的な ATC データセットを利用して、実際の人間の軌跡データからこれらの規範を導き出し、人間とロボットが尊重しなければならない最小限の社会ゾーンを特定します。
これらのゾーンはバリア機能を適用することでロボットのナビゲーション システムに統合され、ロボットが指定された安全セット内に常に留まるようにします。
シミュレーション結果は、私たちのシステムが、右側を追い越したり、速度を調整したり、限られたスペースで一時停止したりするなど、人間のようなナビゲーション戦略を効果的に模倣していることを示しています。
提案されたフレームワークは多用途で、理解しやすく、調整可能であり、人間中心の環境で効果的に移動するように設計されたロボットの開発を前進させる可能性を示しています。

要約(オリジナル)

This study addresses the challenge of integrating social norms into robot navigation, which is essential for ensuring that robots operate safely and efficiently in human-centric environments. Social norms, often unspoken and implicitly understood among people, are difficult to explicitly define and implement in robotic systems. To overcome this, we derive these norms from real human trajectory data, utilizing the comprehensive ATC dataset to identify the minimum social zones humans and robots must respect. These zones are integrated into the robot’s navigation system by applying barrier functions, ensuring the robot consistently remains within the designated safety set. Simulation results demonstrate that our system effectively mimics human-like navigation strategies, such as passing on the right side and adjusting speed or pausing in constrained spaces. The proposed framework is versatile, easily comprehensible, and tunable, demonstrating the potential to advance the development of robots designed to navigate effectively in human-centric environments.

arxiv情報

著者 Junwoo Jang,Maani Ghaffari
発行日 2024-10-11 14:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Social Zone as a Barrier Function for Socially-Compliant Robot Navigation はコメントを受け付けていません

Zero-Shot Transfer of Neural ODEs

要約

自律システムは、トレーニング データの範囲を超えた環境やシナリオに遭遇することがよくあります。これは、目に見えないシナリオをリアルタイムで一般化して適応する必要性という重要な課題を浮き彫りにします。
この課題には、適応とゼロショット転送を可能にする新しい数学的ツールとアルゴリズム ツールが必要です。
この目的を達成するために、関数エンコーダーの理論を活用します。これにより、ニューラル ネットワークの柔軟性とヒルベルト空間の数学的原理を組み合わせることで、ゼロショット転送が可能になります。
この理論を使用して、最初に、一連のニューラル ODE 基底関数によって広がる力学空間を学習する方法を提示します。
トレーニング後、提案されたアプローチは、効率的な内積計算を使用して、学習された空間内のダイナミクスを迅速に特定できます。
重要なことに、この計算にはオンライン段階での勾配計算や再トレーニングが必要ありません。
この方法により、実行時の自律システムのゼロショット転送が可能になり、新しいクラスの適応可能な制御アルゴリズムへの扉が開きます。
2 つの MuJoCo ロボット環境に対する最先端のシステム モデリングの精度を実証し、学習されたモデルをクアッドローターのより効率的な MPC 制御に使用できることを示します。

要約(オリジナル)

Autonomous systems often encounter environments and scenarios beyond the scope of their training data, which underscores a critical challenge: the need to generalize and adapt to unseen scenarios in real time. This challenge necessitates new mathematical and algorithmic tools that enable adaptation and zero-shot transfer. To this end, we leverage the theory of function encoders, which enables zero-shot transfer by combining the flexibility of neural networks with the mathematical principles of Hilbert spaces. Using this theory, we first present a method for learning a space of dynamics spanned by a set of neural ODE basis functions. After training, the proposed approach can rapidly identify dynamics in the learned space using an efficient inner product calculation. Critically, this calculation requires no gradient calculations or retraining during the online phase. This method enables zero-shot transfer for autonomous systems at runtime and opens the door for a new class of adaptable control algorithms. We demonstrate state-of-the-art system modeling accuracy for two MuJoCo robot environments and show that the learned models can be used for more efficient MPC control of a quadrotor.

arxiv情報

著者 Tyler Ingebrand,Adam J. Thorpe,Ufuk Topcu
発行日 2024-10-11 15:14:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Zero-Shot Transfer of Neural ODEs はコメントを受け付けていません

SegGrasp: Zero-Shot Task-Oriented Grasping via Semantic and Geometric Guided Segmentation

要約

機能に基づいて物体の特定の部分を把握するタスク指向の把握は、動的な環境で複雑なタスクを実行できる高度なロボット システムを開発するために重要です。
この論文では、ゼロショットのタスク指向の把握生成のために意味論的事前確率と幾何事前確率の両方を組み込んだトレーニング不要のフレームワークを提案します。
提案されたフレームワークである SegGrasp は、まず GLIP などの視覚言語モデルを利用して粗いセグメンテーションを行います。
次に、凸分解からの詳細な幾何学的情報を使用して、GeoFusion という名前の融合ポリシーを通じてセグメンテーションの品質を向上させます。
効果的な把握ポーズは、セグメンテーションが改善された把握ネットワークによって生成できます。
セグメンテーションベンチマークと現実世界のロボットの把握の両方について実験を実施しました。
実験結果は、SegGrasp が把握およびセグメンテーションのパフォーマンスにおいてベースラインを 15\% 以上上回っていることを示しています。

要約(オリジナル)

Task-oriented grasping, which involves grasping specific parts of objects based on their functions, is crucial for developing advanced robotic systems capable of performing complex tasks in dynamic environments. In this paper, we propose a training-free framework that incorporates both semantic and geometric priors for zero-shot task-oriented grasp generation. The proposed framework, SegGrasp, first leverages the vision-language models like GLIP for coarse segmentation. It then uses detailed geometric information from convex decomposition to improve segmentation quality through a fusion policy named GeoFusion. An effective grasp pose can be generated by a grasping network with improved segmentation. We conducted the experiments on both segmentation benchmark and real-world robot grasping. The experimental results show that SegGrasp surpasses the baseline by more than 15\% in grasp and segmentation performance.

arxiv情報

著者 Haosheng Li,Weixin Mao,Weipeng Deng,Chenyu Meng,Rui Zhang,Fan Jia,Tiancai Wang,Haoqiang Fan,Hongan Wang,Xiaoming Deng
発行日 2024-10-11 15:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SegGrasp: Zero-Shot Task-Oriented Grasping via Semantic and Geometric Guided Segmentation はコメントを受け付けていません