HGS-Planner: Hierarchical Planning Framework for Active Scene Reconstruction Using 3D Gaussian Splatting

要約

捜索や救助などの複雑な任務では、ロボットは周囲を認識し理解する能力に頼って、未知の環境で賢明な意思決定を下す必要があります。
高品質でリアルタイムの再構成は状況認識を強化し、インテリジェント ロボット工学にとって重要です。
従来の方法では、シーンの表現が不十分であったり、リアルタイムで使用するには遅すぎることがよくありました。
3D ガウス スプラッティング (3DGS) の有効性に着想を得て、高速かつ忠実度の高いアクティブな再構成のための階層型計画フレームワークを提案します。
私たちの手法では、完了と品質の向上を評価して適応的に再構築を導き、グローバルとローカルの計画を統合して効率を高めます。
シミュレートされた現実世界の環境での実験では、私たちのアプローチが既存のリアルタイム手法よりも優れていることが示されています。

要約(オリジナル)

In complex missions such as search and rescue,robots must make intelligent decisions in unknown environments, relying on their ability to perceive and understand their surroundings. High-quality and real-time reconstruction enhances situational awareness and is crucial for intelligent robotics. Traditional methods often struggle with poor scene representation or are too slow for real-time use. Inspired by the efficacy of 3D Gaussian Splatting (3DGS), we propose a hierarchical planning framework for fast and high-fidelity active reconstruction. Our method evaluates completion and quality gain to adaptively guide reconstruction, integrating global and local planning for efficiency. Experiments in simulated and real-world environments show our approach outperforms existing real-time methods.

arxiv情報

著者 Zijun Xu,Rui Jin,Ke Wu,Yi Zhao,Zhiwei Zhang,Jieru Zhao,Fei Gao,Zhongxue Gan,Wenchao Ding
発行日 2024-10-09 14:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Control System Design and Experiments for Autonomous Underwater Helicopter Docking Procedure Based on Acoustic-inertial-optical Guidance

要約

自律型水中ヘリコプタ(AUH)の水中ドッキング手順のための制御システム構造を本論文で提案し,音響慣性光学誘導を利用した。
従来の自律型水中探査機(AUV)とは異なり、AUH の操縦性要件はドッキング手順中の方が厳しく、垂直移動中に静止したままであるか、水平方向の動きを最小限に抑える必要があります。
ドッキング手順はホーミングと着陸の 2 つの段階に分かれており、各段階では異なる誘導方法が使用されます。
さらに、さまざまな高度で動作するセグメント化された整列戦略と線形速度決定の両方が着陸段階で採用されます。
海中ドッキング システム (SDS) の独特な構造により、AUH は特定の姿勢と高度で固定された向きで SDS にドッキングする必要があります。
したがって、AUH が SDS に正常にドッキングされたかどうかを判断するための特定の基準が提案されています。
さらに、AUH のドッキング手順における提案された制御方法の有効性とロバスト性が、プール実験と海上試験を通じて実証されています。

要約(オリジナル)

A control system structure for the underwater docking procedure of an Autonomous Underwater Helicopter (AUH) is proposed in this paper, which utilizes acoustic-inertial-optical guidance. Unlike conventional Autonomous Underwater Vehicles (AUVs), the maneuverability requirements for AUHs are more stringent during the docking procedure, requiring it to remain stationary or have minimal horizontal movement while moving vertically. The docking procedure is divided into two stages: Homing and Landing, each stage utilizing different guidance methods. Additionally, a segmented aligning strategy operating at various altitudes and a linear velocity decision are both adopted in Landing stage. Due to the unique structure of the Subsea Docking System (SDS), the AUH is required to dock onto the SDS in a fixed orientation with specific attitude and altitude. Therefore, a particular criterion is proposed to determine whether the AUH has successfully docked onto the SDS. Furthermore, the effectiveness and robustness of the proposed control method in AUH’s docking procedure are demonstrated through pool experiments and sea trials.

arxiv情報

著者 Haoda Li,Xinyu An,Rendong Feng,Zhenwei Rong,Zhuoyu Zhang,Zhipeng Li,Liming Zhao,Ying Chen
発行日 2024-10-09 14:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models

要約

我々は、短期的な動作を超えた長期的なタスクの問題解決能力を四足ロボットに与える、大規模言語モデル (LLM) ベースのシステムを紹介します。
四足動物の長距離タスクは、タスク計画のための問題の意味論の高度な理解と、環境と対話するための幅広い移動および操作スキルの両方を必要とするため、困難です。
私たちのシステムは、大規模な言語モデルを使用して高レベルの推論層を構築し、タスクの説明からハイブリッドの離散連続計画をロボット コードとして生成します。
これは、計画をスケッチするためのセマンティック プランナー、計画内の引数を予測するためのパラメータ計算機、および計画を実行可能なロボット コードに変換するためのコード ジェネレーターという複数の LLM エージェントで構成されます。
低レベルでは、強化学習を採用して一連の動作計画と制御スキルをトレーニングし、四足動物の柔軟性を解放して豊かな環境インタラクションを実現します。
私たちのシステムは、1 つのスキルだけでは完了することが不可能な長期的なタスクでテストされています。
シミュレーションと現実世界での実験は、それが複数段階の戦略を首尾よく導き出し、ツールの構築や人間への助けの通知などの重要な動作を実証することを示しています。
デモはプロジェクト ページ https://sites.google.com/view/long-horizo​​n-robot でご覧いただけます。

要約(オリジナル)

We present a large language model (LLM) based system to empower quadrupedal robots with problem-solving abilities for long-horizon tasks beyond short-term motions. Long-horizon tasks for quadrupeds are challenging since they require both a high-level understanding of the semantics of the problem for task planning and a broad range of locomotion and manipulation skills to interact with the environment. Our system builds a high-level reasoning layer with large language models, which generates hybrid discrete-continuous plans as robot code from task descriptions. It comprises multiple LLM agents: a semantic planner for sketching a plan, a parameter calculator for predicting arguments in the plan, and a code generator to convert the plan into executable robot code. At the low level, we adopt reinforcement learning to train a set of motion planning and control skills to unleash the flexibility of quadrupeds for rich environment interactions. Our system is tested on long-horizon tasks that are infeasible to complete with one single skill. Simulation and real-world experiments show that it successfully figures out multi-step strategies and demonstrates non-trivial behaviors, including building tools or notifying a human for help. Demos are available on our project page: https://sites.google.com/view/long-horizon-robot.

arxiv情報

著者 Yutao Ouyang,Jinhan Li,Yunfei Li,Zhongyu Li,Chao Yu,Koushil Sreenath,Yi Wu
発行日 2024-10-09 15:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

RM4D: A Combined Reachability and Inverse Reachability Map for Common 6-/7-axis Robot Arms by Dimensionality Reduction to 4D

要約

マニピュレータの作業空間に関する知識は、ロボットの設計、把握計画、ロボット ベースの配置などのさまざまなタスクの基礎となります。
その結果、ワークスペース表現はロボット工学においてよく研究されています。
2 つの重要な表現は、到達可能性マップと逆到達可能性マップです。
前者は、ロボットが現在いる場所から特定のエンドエフェクターのポーズに到達できるかどうかを予測し、後者は、目的のエンドエフェクターのポーズに適した基本位置を提案します。
通常、到達可能性マップは、ロボットのワークスペースを含む 6D 空間を離散化し、セルごとに到達可能かどうかを判断することによって構築されます。
その後、到達可能性マップが反転されて、逆マップが構築されます。
これは、そのようなマップのアプリケーションを制限する面倒なプロセスです。
この研究では、既存の 6 軸と 7 軸のロボット アームの共通点を利用して、離散化の次元を 6D から 4D に削減します。
私たちは、順方向クエリと逆方向クエリの両方に単一の 4D データ構造のみを必要とするマップである Reachability Map 4D (RM4D) を提案します。
これにより、既存のマップよりもはるかにコンパクトなマップを構築でき、反転のオーバーヘッドや精度の低下はありません。
私たちの実験では、モバイルマニピュレーターによる把握計画における RM4D の有用性を示しています。

要約(オリジナル)

Knowledge of a manipulator’s workspace is fundamental for a variety of tasks including robot design, grasp planning and robot base placement. Consequently, workspace representations are well studied in robotics. Two important representations are reachability maps and inverse reachability maps. The former predicts whether a given end-effector pose is reachable from where the robot currently is, and the latter suggests suitable base positions for a desired end-effector pose. Typically, the reachability map is built by discretizing the 6D space containing the robot’s workspace and determining, for each cell, whether it is reachable or not. The reachability map is subsequently inverted to build the inverse map. This is a cumbersome process which restricts the applications of such maps. In this work, we exploit commonalities of existing six and seven axis robot arms to reduce the dimension of the discretization from 6D to 4D. We propose Reachability Map 4D (RM4D), a map that only requires a single 4D data structure for both forward and inverse queries. This gives a much more compact map that can be constructed by an order of magnitude faster than existing maps, with no inversion overheads and no loss in accuracy. Our experiments showcase the usefulness of RM4D for grasp planning with a mobile manipulator.

arxiv情報

著者 Martin Rudorfer
発行日 2024-10-09 15:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Exploring Human’s Gender Perception and Bias toward Non-Humanoid Robots

要約

この研究では、人間の性別に対する認識と非人型ロボットに対する偏見を調査します。
ロボットが産業を超えてさまざまな分野にますます統合されているため、人間が非人型ロボットの形態とどのように関わるかを理解することが不可欠です。
この研究は、人間ロボットの相互作用や非ヒューマノイドロボットのユーザー受容に影響を与える、性別シグナルを含む擬人化された手がかりの役割に焦点を当てています。
私たちは 3 つの調査を通じて、外見、声の変調、行動特性などのデザイン要素が性別認識やタスクへの適合性にどのような影響を与えるかを分析します。
私たちの調査結果は、スポット、ミニチーター、ドローンなどの人型ではないロボットであっても、擬人化された特徴に基づいて性別の帰属の対象となり、認識される役割や運用の信頼性に影響を与えることを示しています。
この結果は、特に重要な状況において、機能効率とユーザーの関連性の両方を最適化するために設計要素のバランスをとることの重要性を強調しています。

要約(オリジナル)

In this study, we investigate the human perception of gender and bias toward non-humanoid robots. As robots increasingly integrate into various sectors beyond industry, it is essential to understand how humans engage with non-humanoid robotic forms. This research focuses on the role of anthropomorphic cues, including gender signals, in influencing human robot interaction and user acceptance of non-humanoid robots. Through three surveys, we analyze how design elements such as physical appearance, voice modulation, and behavioral attributes affect gender perception and task suitability. Our findings demonstrate that even non-humanoid robots like Spot, Mini-Cheetah, and drones are subject to gender attribution based on anthropomorphic features, affecting their perceived roles and operational trustworthiness. The results underscore the importance of balancing design elements to optimize both functional efficiency and user relatability, particularly in critical contexts.

arxiv情報

著者 Mahya Ramezani,Jose Luis Sanchez-Lopez
発行日 2024-10-09 15:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

The Brain-Inspired Cooperative Shared Control Framework for Brain-Machine Interface

要約

ブレイン マシン インターフェイス (BMI) アプリケーションにおける主な課題は、神経信号の情報量の少なさとノイズ レベルの高さであり、安定したロボット制御に深刻な影響を及ぼします。
この課題に対処するために、私たちは、脳からインスピレーションを得た知能に基づく協調的な共有制御フレームワークを提案します。このフレームワークでは、制御信号が神経活動から解読され、ロボットが微細な制御を処理します。
これにより、ロボットと脳の間の柔軟で適応的なインタラクション制御の組み合わせが可能になり、人間とロボットの複雑なコラボレーションが可能になります。
提案されたフレームワークは、速度やステアリングなどのロボット アームとホイールを制御するためにスパイキング ニューラル ネットワーク (SNN) を利用します。
システムの完全な統合は依然として将来の目標ですが、ロボット アームの制御、オブジェクト追跡、およびマップ生成のための個々のモジュールは正常に実装されています。
このフレームワークにより、BMI のパフォーマンスが大幅に向上すると期待されています。
実際の設定では、脳からインスピレーションを得たアルゴリズムを利用した協調共有制御を備えた BMI により、臨床応用の可能性が大幅に高まります。

要約(オリジナル)

In brain-machine interface (BMI) applications, a key challenge is the low information content and high noise level in neural signals, severely affecting stable robotic control. To address this challenge, we proposes a cooperative shared control framework based on brain-inspired intelligence, where control signals are decoded from neural activity, and the robot handles the fine control. This allows for a combination of flexible and adaptive interaction control between the robot and the brain, making intricate human-robot collaboration feasible. The proposed framework utilizes spiking neural networks (SNNs) for controlling robotic arm and wheel, including speed and steering. While full integration of the system remains a future goal, individual modules for robotic arm control, object tracking, and map generation have been successfully implemented. The framework is expected to significantly enhance the performance of BMI. In practical settings, the BMI with cooperative shared control, utilizing a brain-inspired algorithm, will greatly enhance the potential for clinical applications.

arxiv情報

著者 Junjie Yang,Ling Liu,Shengjie Zheng,Lang Qian,Gang Gao,Xin Chen,Xiaojian Li
発行日 2024-10-09 16:10:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, cs.SY, eess.SY | コメントする

TURTLMap: Real-time Localization and Dense Mapping of Low-texture Underwater Environments with a Low-cost Unmanned Underwater Vehicle

要約

水中環境における位置特定とマッピングの進歩に関して、重要な作業が行われてきました。
それでも、最先端の手法は、水中環境ではよくある低テクスチャ環境という課題に直面しています。
このため、現実世界の多様なシーンで既存の手法を使用することが困難になります。
この論文では、リアルタイムの位置特定およびマッピング手法を通じてテクスチャレスの水中環境に焦点を当てた新しいソリューションである TURTLMap を紹介します。
この方法は低コストで、リアルタイムで低テクスチャ環境の高密度マップを構築しながら、ロボットを正確に追跡できることを示します。
モーション キャプチャ システムとグランド トゥルース参照マップを備えた屋内水槽で収集された実世界データを使用して、提案された手法を評価します。
定性的および定量的な結果は、提案されたシステムが、波の状況にさらされた場合でも、正確かつ堅牢な位置特定と正確な密なマッピングを達成することを検証します。
TURTLMap のプロジェクト ページは https://umfieldrobotics.github.io/TURTLMap です。

要約(オリジナル)

Significant work has been done on advancing localization and mapping in underwater environments. Still, state-of-the-art methods are challenged by low-texture environments, which is common for underwater settings. This makes it difficult to use existing methods in diverse, real-world scenes. In this paper, we present TURTLMap, a novel solution that focuses on textureless underwater environments through a real-time localization and mapping method. We show that this method is low-cost, and capable of tracking the robot accurately, while constructing a dense map of a low-textured environment in real-time. We evaluate the proposed method using real-world data collected in an indoor water tank with a motion capture system and ground truth reference map. Qualitative and quantitative results validate the proposed system achieves accurate and robust localization and precise dense mapping, even when subject to wave conditions. The project page for TURTLMap is https://umfieldrobotics.github.io/TURTLMap.

arxiv情報

著者 Jingyu Song,Onur Bagoren,Razan Andigani,Advaith Venkatramanan Sethuraman,Katherine A. Skinner
発行日 2024-10-09 17:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation

要約

我々は、ドアを開けるなどの曖昧な関節オブジェクトを操作するための新しいアプローチを導入します。この場合、マルチモダリティとオクルージョンにより、開く側と方向に関する曖昧さが生じます。
マルチモダリティは、完全に閉じたドアの開け方(押す、引く、スライドする)が不確かな場合や、どちら側から開けるべきかが不明確な場合に発生します。
オクルージョンにより、特定の角度からドアの形状がさらに不明瞭になり、オクルージョン中にさらに曖昧さが生じます。
これらの課題に取り組むために、我々は、多関節オブジェクトのマルチモーダル分布をモデル化し、履歴を使用してアクションの曖昧さを解消し、オクルージョン下で安定した予測を行う、履歴を意識した拡散ネットワークを提案します。
実験と分析は、私たちの方法の最先端のパフォーマンス、特に曖昧さによって引き起こされる故障モードの改善を実証します。
私たちのプロジェクトの Web サイトは https://flowbothd.github.io/ から入手できます。

要約(オリジナル)

We introduce a novel approach to manipulate articulated objects with ambiguities, such as opening a door, in which multi-modality and occlusions create ambiguities about the opening side and direction. Multi-modality occurs when the method to open a fully closed door (push, pull, slide) is uncertain, or the side from which it should be opened is uncertain. Occlusions further obscure the door’s shape from certain angles, creating further ambiguities during the occlusion. To tackle these challenges, we propose a history-aware diffusion network that models the multi-modal distribution of the articulated object and uses history to disambiguate actions and make stable predictions under occlusions. Experiments and analysis demonstrate the state-of-art performance of our method and specifically improvements in ambiguity-caused failure modes. Our project website is available at https://flowbothd.github.io/.

arxiv情報

著者 Yishu Li,Wen Hui Leng,Yiming Fang,Ben Eisner,David Held
発行日 2024-10-09 17:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

VIRT: Vision Instructed Transformer for Robotic Manipulation

要約

ロボット操作は、そのマルチモーダルな性質により、トレーニングの大きな曖昧さに直面することが多く、タスク内の操作の詳細を明確に記述するための明示的な指示が必要になります。
この研究では、最近のロボット政策は人間の幼児と同様にある程度の視覚理解能力を持って生まれてくるため、最近のロボット政策は一般的に採用されているテキストによる指導よりも自然に理解しやすいことを強調しています。
この前提に基づいて認知科学からインスピレーションを得て、テキスト注釈なしで大規模なロボットデータの事前トレーニングを実現するロボット画像パラダイムを紹介します。
さらに、人間の視線メカニズムをエミュレートするロボットの視線戦略を提案します。これにより、その後のアクションを導き、操作対象オブジェクトにポリシーの注意を集中させます。
これらのイノベーションを活用して、完全に Transformer ベースのポリシーである VIRT を開発します。
私たちは、物理的なロボットとシミュレートされた環境の両方を使用して包括的なタスクを設計し、VIRT の有効性を評価します。
その結果、VIRT は「密閉されたボトルの蓋を開ける」などの非常に競争力の高いタスクを完了できることが示され、提案された手法により、さまざまな困難なタスクにおけるベースライン ポリシーの成功率がほぼ 0% から 65% 以上に上昇しました。

要約(オリジナル)

Robotic manipulation, owing to its multi-modal nature, often faces significant training ambiguity, necessitating explicit instructions to clearly delineate the manipulation details in tasks. In this work, we highlight that vision instruction is naturally more comprehensible to recent robotic policies than the commonly adopted text instruction, as these policies are born with some vision understanding ability like human infants. Building on this premise and drawing inspiration from cognitive science, we introduce the robotic imagery paradigm, which realizes large-scale robotic data pre-training without text annotations. Additionally, we propose the robotic gaze strategy that emulates the human eye gaze mechanism, thereby guiding subsequent actions and focusing the attention of the policy on the manipulated object. Leveraging these innovations, we develop VIRT, a fully Transformer-based policy. We design comprehensive tasks using both a physical robot and simulated environments to assess the efficacy of VIRT. The results indicate that VIRT can complete very competitive tasks like “opening the lid of a tightly sealed bottle”, and the proposed techniques boost the success rates of the baseline policy on diverse challenging tasks from nearly 0% to more than 65%.

arxiv情報

著者 Zhuoling Li,Liangliang Ren,Jinrong Yang,Yong Zhao,Xiaoyang Wu,Zhenhua Xu,Xiang Bai,Hengshuang Zhao
発行日 2024-10-09 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Diffusion Density Estimators

要約

私たちは、神経密度推定器としての拡散モデルの使用を調査します。
この問題に対する現在のアプローチには、確率フロー ODE として知られる、生成プロセスを滑らかなフローに変換することが含まれます。
特定のサンプルでの対数密度は、ブラック ボックス ソルバーを使用して ODE を解くことによって取得できます。
フローを解決せずにログ密度を計算する、高度に並列化可能な新しいメソッドを導入します。
私たちのアプローチは、拡散モデルのシミュレーションフリーのトレーニングと同じ方法で、モンテカルロによる経路積分を推定することに基づいています。
また、さまざまなトレーニング パラメーターが密度計算の精度にどのような影響を与えるかを研究し、これらのモデルをよりスケーラブルかつ効率的にする方法についての洞察を提供します。

要約(オリジナル)

We investigate the use of diffusion models as neural density estimators. The current approach to this problem involves converting the generative process to a smooth flow, known as the Probability Flow ODE. The log density at a given sample can be obtained by solving the ODE with a black-box solver. We introduce a new, highly parallelizable method that computes log densities without the need to solve a flow. Our approach is based on estimating a path integral by Monte Carlo, in a manner identical to the simulation-free training of diffusion models. We also study how different training parameters affect the accuracy of the density calculation, and offer insights into how these models can be made more scalable and efficient.

arxiv情報

著者 Akhil Premkumar
発行日 2024-10-09 15:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする