Efficient and Distributed Large-Scale 3D Map Registration using Tomographic Features

要約

堅牢でリソース効率が高く、分散型で最小限にパラメータ化された 3D マップ マッチングおよびマージ アルゴリズムが提案されています。
提案されたアルゴリズムは、重力に合わせたローカル マップの水平断面の 2D 投影からの断層撮影特徴を利用し、考えられるすべての高低差でこれらの投影スライスを照合し、効率的かつ並列化可能な方法で 4 自由度の推定を可能にします。
提唱されたアルゴリズムは、最先端の特徴抽出および登録パイプラインのメモリ使用量と実行時間を一桁改善します。
この 3D マップ結合スキームの効率を調査するために、実験研究が提供されています。

要約(オリジナル)

A robust, resource-efficient, distributed, and minimally parameterized 3D map matching and merging algorithm is proposed. The suggested algorithm utilizes tomographic features from 2D projections of horizontal cross-sections of gravity-aligned local maps, and matches these projection slices at all possible height differences, enabling the estimation of four degrees of freedom in an efficient and parallelizable manner. The advocated algorithm improves state-of-the-art feature extraction and registration pipelines by an order of magnitude in memory use and execution time. Experimental studies are offered to investigate the efficiency of this 3D map merging scheme.

arxiv情報

著者 Halil Utku Unlu,Anthony Tzes,Prashanth Krishnamurthy,Farshad Khorrami
発行日 2024-06-27 18:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data

要約

音声信号は、ロボットの相互作用や接触による物体の特性に関する豊富な情報を提供します。
これらの情報は、特に視覚情報だけでは曖昧または不完全な場合に、接触が多いロボット操作スキルの学習を驚くほど容易にします。
ただし、ロボット操作における音声データの使用は、ロボットまたは物体にマイクを取り付けて収集された遠隔操作のデモンストレーションに限定されており、ロボット学習パイプラインでの使用は大幅に制限されています。
この研究では、ManiWAV を紹介します。これは、同期した音声と視覚のフィードバックを使用して、自然環境での人間のデモンストレーションを収集するための「耳を傾ける」データ収集デバイスと、デモンストレーションから直接ロボット操作ポリシーを学習するための対応するポリシー インターフェイスです。
接触イベントとモードを受動的に感知するか、物体表面の材質と状態を能動的に感知する必要がある 4 つの接触が豊富な操作タスクを通じて、システムの機能を実証します。
さらに、私たちのシステムは、野生における人間の多様なデモンストレーションから学習することで、目に見えない野生環境にも一般化できることを示します。
プロジェクトWebサイト:https://mani-wav.github.io/

要約(オリジナル)

Audio signals provide rich information for the robot interaction and object properties through contact. These information can surprisingly ease the learning of contact-rich robot manipulation skills, especially when the visual information alone is ambiguous or incomplete. However, the usage of audio data in robot manipulation has been constrained to teleoperated demonstrations collected by either attaching a microphone to the robot or object, which significantly limits its usage in robot learning pipelines. In this work, we introduce ManiWAV: an ‘ear-in-hand’ data collection device to collect in-the-wild human demonstrations with synchronous audio and visual feedback, and a corresponding policy interface to learn robot manipulation policy directly from the demonstrations. We demonstrate the capabilities of our system through four contact-rich manipulation tasks that require either passively sensing the contact events and modes, or actively sensing the object surface materials and states. In addition, we show that our system can generalize to unseen in-the-wild environments, by learning from diverse in-the-wild human demonstrations. Project website: https://mani-wav.github.io/

arxiv情報

著者 Zeyi Liu,Cheng Chi,Eric Cousineau,Naveen Kuppuswamy,Benjamin Burchfiel,Shuran Song
発行日 2024-06-27 18:06:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO, cs.SD, eess.AS | コメントする

Efficient Path Planning with Soft Homology Constraints

要約

我々は、穴のあるディスクと位相的に等価な表面上でのソフトホモロジー制約を用いた経路計画の問題を研究します。
具体的には、ユーザーが指定した参照パスと相同なパスを効率的に計算するための、$\Hstar$ という名前のアルゴリズムを提案します。
このアルゴリズムが、全体の最短パスから参照パスに相同な最短パスまで、パスの長さと参照パスとの類似性の両方によって順序付けされた、個別の相同性クラス内のパスのスイートを生成できることを示します。
ロールアウトにより、アルゴリズムによって生成される結果が改善されることが示されています。
実験では、$\Hstar$ が、特に障害物が多い構成空間の場合、最適な方法に代わる効率的な代替手段となり得ることが実証されています。

要約(オリジナル)

We study the problem of path planning with soft homology constraints on a surface topologically equivalent to a disk with punctures. Specifically, we propose an algorithm, named $\Hstar$, for the efficient computation of a path homologous to a user-provided reference path. We show that the algorithm can generate a suite of paths in distinct homology classes, from the overall shortest path to the shortest path homologous to the reference path, ordered both by path length and similarity to the reference path. Rollout is shown to improve the results produced by the algorithm. Experiments demonstrate that $\Hstar$ can be an efficient alternative to optimal methods, especially for configuration spaces with many obstacles.

arxiv情報

著者 Carlos A. Taveras,Santiago Segarra,César A. Uribe
発行日 2024-06-27 22:06:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.RO, math.OC | コメントする

Notes on Kalman Filter (KF, EKF, ESKF, IEKF, IESKF)

要約

カルマン フィルター (KF) は、Simultaneous Localization and Mapping (SLAM) などのさまざまなドメインで状態推定に広く使用されている強力な数学ツールです。
このペーパーでは、カルマン フィルターについて詳しく説明し、そのいくつかの拡張機能である拡張カルマン フィルター (EKF)、エラー状態カルマン フィルター (ESKF)、反復拡張カルマン フィルター (IEKF)、および反復エラーについて説明します。
状態カルマン フィルター (IESKF)。
各バリアントは、数学的定式化の詳細な導出と、それぞれの利点と制限についての議論を伴って、綿密に検査されます。
これらの技術の包括的な概要を提供することで、このホワイト ペーパーは、SLAM でのそれらのアプリケーションへの貴重な洞察を提供し、複雑な環境における状態推定方法論の理解を強化することを目的としています。

要約(オリジナル)

The Kalman Filter (KF) is a powerful mathematical tool widely used for state estimation in various domains, including Simultaneous Localization and Mapping (SLAM). This paper presents an in-depth introduction to the Kalman Filter and explores its several extensions: the Extended Kalman Filter (EKF), the Error-State Kalman Filter (ESKF), the Iterated Extended Kalman Filter (IEKF), and the Iterated Error-State Kalman Filter (IESKF). Each variant is meticulously examined, with detailed derivations of their mathematical formulations and discussions on their respective advantages and limitations. By providing a comprehensive overview of these techniques, this paper aims to offer valuable insights into their applications in SLAM and enhance the understanding of state estimation methodologies in complex environments.

arxiv情報

著者 Gyubeom Im
発行日 2024-06-27 23:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Exploring the Dynamics between Cobot’s Production Rhythm, Locus of Control and Emotional State in a Collaborative Assembly Scenario

要約

産業シナリオでは、協働ロボット (協働ロボット) が広く使用されており、協働ロボットのいくつかの特性が人的要因に及ぼす影響を評価および測定することに関心が高まっています。
現在のパイロット研究では、協働ロボットの生産リズム (C1 – 遅い、C2 – 速い、C3 – 参加者のペースに適応) が経験的制御位置 (ELoC) と 31 人の参加者の感情状態に及ぼす影響を調査しました。
検査されました。
オペレーターのパフォーマンス、基本的な内部制御の程度、ロボットに対する態度も考慮されました。
3 つの条件における感情状態と ELoC に関しては違いは見つかりませんでしたが、他の心理的変数を考慮すると、より複雑な状況が浮かび上がります。
全体的に、結果は、差別化された最適なインタラクション体験を提供するには、人の心理的特性を考慮する必要があることを示しているようです。

要約(オリジナル)

In industrial scenarios, there is widespread use of collaborative robots (cobots), and growing interest is directed at evaluating and measuring the impact of some characteristics of the cobot on the human factor. In the present pilot study, the effect that the production rhythm (C1 – Slow, C2 – Fast, C3 – Adapted to the participant’s pace) of a cobot has on the Experiential Locus of Control (ELoC) and the emotional state of 31 participants has been examined. The operators’ performance, the degree of basic internal Locus of Control, and the attitude towards the robots were also considered. No difference was found regarding the emotional state and the ELoC in the three conditions, but considering the other psychological variables, a more complex situation emerges. Overall, results seem to indicate a need to consider the person’s psychological characteristics to offer a differentiated and optimal interaction experience.

arxiv情報

著者 Marta Mondellini,Matteo Lavit Nicora,Pooja Prajod,Elisabeth André,Rocco Vertechy,Alessandro Antonietti,Matteo Malosio
発行日 2024-06-28 02:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | コメントする

CLOi-Mapper: Consistent, Lightweight, Robust, and Incremental Mapper With Embedded Systems for Commercial Robot Services

要約

いくつかのフォームファクターを備えた商用自律型サービス ロボットでは、清掃や誘導などの適切なサービスを提供するために、同時位置特定とマッピング (SLAM) が不可欠なテクノロジーです。
このようなロボットには、特定のアプリケーションや環境に適した SLAM アルゴリズムが必要です。
したがって、過去 10 年間にさまざまな要件に対処するために、いくつかの SLAM フレームワークが提案されてきました。
しかし、ローエンドのプロセッサーや低解像度の 2D LiDAR センサーなどのセンサー データが不十分なサービス ロボットを扱う場合、最近の革新的なフレームワークを実装する際に課題に直面しました。
特に、商用ロボットに関しては、特定のセンサーや環境専用のパフォーマンスよりも、さまざまなハードウェア構成や環境における一貫したパフォーマンスの方が重要です。
したがって、我々は、a) 組み込みシステムにおけるグローバル姿勢推定のための多段階 % 階層的アプローチを提案します。
b) 同期センサーに対するゼロ制約のグラフ生成方法。
c) 長期的なポーズグラフ最適化のための堅牢でメモリ効率の高い方法。
家庭内および大規模な屋内環境で検証されたように、提案された方法は、商用分野のサービスに対して一貫した全体的な姿勢推定をもたらします。
さらに、提案された方法は、大量生産と長期 (> 5 年) の運用を通じて検証された一貫したパフォーマンスを考慮すると、潜在的な商業的実行可能性を示します。

要約(オリジナル)

In commercial autonomous service robots with several form factors, simultaneous localization and mapping (SLAM) is an essential technology for providing proper services such as cleaning and guidance. Such robots require SLAM algorithms suitable for specific applications and environments. Hence, several SLAM frameworks have been proposed to address various requirements in the past decade. However, we have encountered challenges in implementing recent innovative frameworks when handling service robots with low-end processors and insufficient sensor data, such as low-resolution 2D LiDAR sensors. Specifically, regarding commercial robots, consistent performance in different hardware configurations and environments is more crucial than the performance dedicated to specific sensors or environments. Therefore, we propose a) a multi-stage %hierarchical approach for global pose estimation in embedded systems; b) a graph generation method with zero constraints for synchronized sensors; and c) a robust and memory-efficient method for long-term pose-graph optimization. As verified in in-home and large-scale indoor environments, the proposed method yields consistent global pose estimation for services in commercial fields. Furthermore, the proposed method exhibits potential commercial viability considering the consistent performance verified via mass production and long-term (> 5 years) operation.

arxiv情報

著者 DongKi Noh,Hyungtae Lim,Gyuho Eoh,Duckyu Choi,Jeongsik Choi,Hyunjun Lim,SeungMin Baek,Hyun Myung
発行日 2024-06-28 03:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Behavior Generation with Latent Actions

要約

ラベル付きデータセットからの複雑な動作の生成モデリングは、意思決定における長年の問題です。
言語や画像の生成とは異なり、意思決定にはモデリング アクションが必要です。モデリング アクションは、分布が多峰性である連続値ベクトルであり、キュレートされていないソースから抽出される可能性があり、生成エラーが逐次予測に複合する可能性があります。
Behavior Transformers (BeT) と呼ばれる最近のモデル クラスは、K 平均法クラスタリングを使用してアクションを離散化し、さまざまなモードをキャプチャすることでこの問題に対処します。
ただし、K-means は高次元のアクション空間や長いシーケンスに対応するのに苦労しており、勾配情報が不足しているため、BeT は長距離アクションのモデル化に問題があります。
この研究では、マルチモーダルなアクション予測、条件付き生成、および部分的な観測を処理する、行動生成のための多用途モデルであるベクトル量子化行動トランスフォーマー (VQ-BeT) を紹介します。
VQ-BeT は、階層ベクトル量子化モジュールを使用して連続アクションをトークン化することで BeT を強化します。
VQ-BeT は、シミュレートされた操作、自動運転、ロボティクスを含む 7 つの環境にわたって、BeT や拡散ポリシーなどの最先端のモデルを改良しています。
重要なのは、拡散ポリシーと比較して推論速度を 5 倍高速化しながら、動作モードをキャプチャする VQ-BeT の能力が向上していることを実証していることです。
ビデオとコードは https://sjlee.cc/vq-bet からご覧いただけます。

要約(オリジナル)

Generative modeling of complex behaviors from labeled datasets has been a longstanding problem in decision making. Unlike language or image generation, decision making requires modeling actions – continuous-valued vectors that are multimodal in their distribution, potentially drawn from uncurated sources, where generation errors can compound in sequential prediction. A recent class of models called Behavior Transformers (BeT) addresses this by discretizing actions using k-means clustering to capture different modes. However, k-means struggles to scale for high-dimensional action spaces or long sequences, and lacks gradient information, and thus BeT suffers in modeling long-range actions. In this work, we present Vector-Quantized Behavior Transformer (VQ-BeT), a versatile model for behavior generation that handles multimodal action prediction, conditional generation, and partial observations. VQ-BeT augments BeT by tokenizing continuous actions with a hierarchical vector quantization module. Across seven environments including simulated manipulation, autonomous driving, and robotics, VQ-BeT improves on state-of-the-art models such as BeT and Diffusion Policies. Importantly, we demonstrate VQ-BeT’s improved ability to capture behavior modes while accelerating inference speed 5x over Diffusion Policies. Videos and code can be found https://sjlee.cc/vq-bet

arxiv情報

著者 Seungjae Lee,Yibin Wang,Haritheja Etukuru,H. Jin Kim,Nur Muhammad Mahi Shafiullah,Lerrel Pinto
発行日 2024-06-28 04:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

Time-optimal Flight in Cluttered Environments via Safe Reinforcement Learning

要約

この論文では、衝突を回避しながら飛行時間を最小限に抑えることを目的として、雑然とした環境で事前に定義されたウェイポイントのシーケンスを通じてクアッドローターを誘導する問題について取り上げます。
以前のアプローチは、複雑な非凸最適化問題を解くことによって計算時間が長くなるか、多項式軌道表現の固有の滑らかさによって制限され、それによって動きの柔軟性が制限されます。
この研究では、雑然とした環境で時間的に最適な飛行を行う自律ドローンレースのための安全な強化学習アプローチを紹介します。
ほぼ最適な時間で衝突のない飛行を強制するように特別に設計された安全性と最終報酬を使用してトレーニングされた強化学習ポリシーは、現在の最先端のアルゴリズムを上回ります。
さらに、実験結果は、複雑な環境における最小飛行時間と障害物回避目標の両方を達成する際の提案されたアプローチの有効性を実証しており、目に見えない困難な設定において賞賛に値する $66.7\%$ の成功率を示しています。

要約(オリジナル)

This paper addresses the problem of guiding a quadrotor through a predefined sequence of waypoints in cluttered environments, aiming to minimize the flight time while avoiding collisions. Previous approaches either suffer from prolonged computational time caused by solving complex non-convex optimization problems or are limited by the inherent smoothness of polynomial trajectory representations, thereby restricting the flexibility of movement. In this work, we present a safe reinforcement learning approach for autonomous drone racing with time-optimal flight in cluttered environments. The reinforcement learning policy, trained using safety and terminal rewards specifically designed to enforce near time-optimal and collision-free flight, outperforms current state-of-the-art algorithms. Additionally, experimental results demonstrate the efficacy of the proposed approach in achieving both minimum flight time and obstacle avoidance objectives in complex environments, with a commendable $66.7\%$ success rate in unseen, challenging settings.

arxiv情報

著者 Wei Xiao,Zhaohan Feng,Ziyu Zhou,Jian Sun,Gang Wang,Jie Chen
発行日 2024-06-28 04:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

NGM-SLAM: Gaussian Splatting SLAM with Radiance Field Submap

要約

ガウス スプラッティングに基づく SLAM システムは、高速なリアルタイム レンダリングと高忠実度のマッピングの機能により注目を集めています。
しかし、現在のガウス スプラッティング SLAM システムは通常、大規模なシーン表現に苦労しており、効果的なループ クロージャ検出が不足しています。
これらの問題に対処するために、NGM-SLAM を導入します。NGM-SLAM は、プログレッシブ シーン表現に神経放射フィールド サブマップを利用し、神経放射フィールドと 3D ガウス スプラッティングの長所を効果的に統合する初の 3DGS ベースの SLAM システムです。
ニューラル放射輝度フィールド サブマップを監視として利用し、融合サブマップのガウス レンダリングを通じて高品質のシーン表現とオンライン ループ クロージャ調整を実現します。
複数の実世界のシーンと大規模なシーン データセットに関する結果は、この方法が正確な穴埋めと高品質のシーン表現を実現し、単眼、ステレオ、および RGB-D 入力をサポートし、最先端の機能を実現できることを示しています。
シーンの再構築と追跡パフォーマンス。

要約(オリジナル)

SLAM systems based on Gaussian Splatting have garnered attention due to their capabilities for rapid real-time rendering and high-fidelity mapping. However, current Gaussian Splatting SLAM systems usually struggle with large scene representation and lack effective loop closure detection. To address these issues, we introduce NGM-SLAM, the first 3DGS based SLAM system that utilizes neural radiance field submaps for progressive scene expression, effectively integrating the strengths of neural radiance fields and 3D Gaussian Splatting. We utilize neural radiance field submaps as supervision and achieve high-quality scene expression and online loop closure adjustments through Gaussian rendering of fused submaps. Our results on multiple real-world scenes and large-scale scene datasets demonstrate that our method can achieve accurate hole filling and high-quality scene expression, supporting monocular, stereo, and RGB-D inputs, and achieving state-of-the-art scene reconstruction and tracking performance.

arxiv情報

著者 Mingrui Li,Jingwei Huang,Lei Sun,Aaron Xuxiang Tian,Tianchen Deng,Hongyu Wang
発行日 2024-06-28 06:23:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

UltraGelBot: Autonomous Gel Dispenser for Robotic Ultrasound

要約

遠隔ロボットおよび自律ロボット超音波システム (RUS) は、フリーハンド超音波検査におけるオペレーターへの依存性の必要性を軽減するのに役立ちます。
ただし、最先端の RUS では、超音波ジェルの塗布は依然として人間のオペレーターに依存しています。
このプロセスにおける標準化の欠如により、スキャンされた領域の画像化が不十分になることがよくあります。
この理由は、プローブと人体の間のエアギャップに関係しています。
この論文では、UltraGelBot と呼ばれる RUS 用のエンドオブアーム ツールを開発しました。
このボットは自律的にジェルを検出して塗布できます。
ディープラーニングモデルを使用して、車載カメラで取得した画像からゲルを検出します。
このフィードバックを利用してジェルを吐出する電動機構も開発されています。
ファントムでの実験により、UltraGelBot により取得画像の品質が $18.6\%$ 向上し、手順時間が $37.2\%$ 短縮されることが明らかになりました。

要約(オリジナル)

Telerobotic and Autonomous Robotic Ultrasound Systems (RUS) help alleviate the need for operator-dependability in free-hand ultrasound examinations. However, the state-of-the-art RUSs still rely on a human operator to apply the ultrasound gel. The lack of standardization in this process often leads to poor imaging of the scanned region. The reason for this has to do with air-gaps between the probe and the human body. In this paper, we developed a end-of-arm tool for RUS, referred to as UltraGelBot. This bot can autonomously detect and dispense the gel. It uses a deep learning model to detect the gel from images acquired using an on-board camera. A motorized mechanism is also developed, which will use this feedback and dispense the gel. Experiments on phantom revealed that UltraGelBot increases the acquired image quality by $18.6\%$ and reduces the procedure time by $37.2\%$.

arxiv情報

著者 Deepak Raina,Ziming Zhao,Richard Voyles,Juan Wachs,Subir K. Saha,S. H. Chandrashekhara
発行日 2024-06-28 06:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする