PointNetPGAP-SLC: A 3D LiDAR-based Place Recognition Approach with Segment-level Consistency Training for Mobile Robots in Horticulture

要約

3次元LiDARに基づく場所認識は、園芸環境ではまだほとんど研究されていない。園芸環境は、レーザービームに対して半透過性であるため、独特の課題がある。この特性により、隣接する列から非常に類似したLiDARスキャンが取得されることが多く、ディスクリプタが曖昧になり、結果として検索性能が低下します。(i)2つの統計的手法から着想を得たアグリゲータの出力を1つの記述子に統合した新しいモデル、PointNetPGAP、(ii)記述子の頑健性を高めるために学習時のみに使用されるセグメントレベルの一貫性(SLC)モデル、(iii)果樹園とイチゴ畑のLiDARシーケンスからなるHORTO-3DLMデータセット。HORTO-3DLMデータセットとKITTIオドメトリデータセットで実施した実験評価では、PointNetPGAPがOverlapTransformerやPointNetVLADを含む最先端モデルを、特にSLCモデルを適用した場合に上回っていることが実証された。これらの結果は、特に園芸環境において、曖昧性の高いセグメントでの検索性能を大幅に向上させることで、このモデルの優位性を強調している。

要約(オリジナル)

3D LiDAR-based place recognition remains largely underexplored in horticultural environments, which present unique challenges due to their semi-permeable nature to laser beams. This characteristic often results in highly similar LiDAR scans from adjacent rows, leading to descriptor ambiguity and, consequently, compromised retrieval performance. In this work, we address the challenges of 3D LiDAR place recognition in horticultural environments, particularly focusing on inter-row ambiguity by introducing three key contributions: (i) a novel model, PointNetPGAP, which combines the outputs of two statistically-inspired aggregators into a single descriptor; (ii) a Segment-Level Consistency (SLC) model, used exclusively during training to enhance descriptor robustness; and (iii) the HORTO-3DLM dataset, comprising LiDAR sequences from orchards and strawberry fields. Experimental evaluations conducted on the HORTO-3DLM and KITTI Odometry datasets demonstrate that PointNetPGAP outperforms state-of-the-art models, including OverlapTransformer and PointNetVLAD, particularly when the SLC model is applied. These results underscore the model’s superiority, especially in horticultural environments, by significantly improving retrieval performance in segments with higher ambiguity.

arxiv情報

著者 T. Barros,L. Garrote,P. Conde,M. J. Coombes,C. Liu,C. Premebida,U. J. Nunes
発行日 2024-10-03 13:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Behavior Trees in Functional Safety Supervisors for Autonomous Vehicles

要約

自律走行車のソフトウェアの急速な進歩は、特に交通安全の向上において、チャンスと課題の両方をもたらしている。自律走行車の主な目的は、安全対策の改善を通じて事故率を低減することである。しかし、人工知能手法のような新しいアルゴリズムを自律走行車両に統合することは、確立された安全規制の遵守に関する懸念を引き起こす。本論文では、確立された基準に沿い、リアルタイムで車両の機能安全を監督するために設計された、ビヘイビアツリーに基づく新しいソフトウェアアーキテクチャを紹介する。特に、ISO 26262に準拠した産業用道路車両へのアルゴリズムの統合を取り上げる。提案された監督方法論は、危険の検出と、危険発生時の機能的・技術的安全要件の遵守を含む。この方法論は、本研究でルノー・メカネ(現在SAE自動化レベル3)に実装され、安全基準への準拠を保証するだけでなく、より安全で信頼性の高い自律走行技術への道を開くものである。

要約(オリジナル)

The rapid advancements in autonomous vehicle software present both opportunities and challenges, especially in enhancing road safety. The primary objective of autonomous vehicles is to reduce accident rates through improved safety measures. However, the integration of new algorithms into the autonomous vehicle, such as Artificial Intelligence methods, raises concerns about the compliance with established safety regulations. This paper introduces a novel software architecture based on behavior trees, aligned with established standards and designed to supervise vehicle functional safety in real time. It specifically addresses the integration of algorithms into industrial road vehicles, adhering to the ISO 26262. The proposed supervision methodology involves the detection of hazards and compliance with functional and technical safety requirements when a hazard arises. This methodology, implemented in this study in a Renault M\’egane (currently at SAE level 3 of automation), not only guarantees compliance with safety standards, but also paves the way for safer and more reliable autonomous driving technologies.

arxiv情報

著者 Carlos Conejo,Vicenç Puig,Bernardo Morcego,Francisco Navas,Vicente Milanés
発行日 2024-10-03 13:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Efficient Residual Learning with Mixture-of-Experts for Universal Dexterous Grasping

要約

多様な物体を器用に把持することは、ロボット学習における基本的かつ困難な課題である。強化学習(RL)を用いた既存のアプローチは、マルチタスク学習のための複雑なカリキュラム設計や、未見物体への限定的な汎化など、重大な限界に直面している。これらの課題を克服するために、我々はResDexを導入する。ResDexは、残差政策学習をMoE(Mixture-of-Experts)フレームワークと統合した新しいアプローチである。ResDexの特徴は、個々の物体に対して効率的に獲得され、広範囲の未見物体に対して汎化可能な、形状を意識しない基本方針を用いることである。我々のMoEフレームワークは、様々な物体に適した多様な把持スタイルを促進するために、複数の基本方針を組み込んでいる。ResDexは、これらの基本方針を組み合わせた重みとともに残差動作を学習することで、普遍的な器用把持のための効率的なマルチタスクRLを実現する。ResDexは、3,200物体からなるDexGraspNetデータセットにおいて、88.8%の成功率で最先端の性能を達成した。また、未見の物体との汎化ギャップを示さず、GPU1台でわずか12時間以内に全てのタスクをマスターするという優れた学習効率を示している。

要約(オリジナル)

Universal dexterous grasping across diverse objects presents a fundamental yet formidable challenge in robot learning. Existing approaches using reinforcement learning (RL) to develop policies on extensive object datasets face critical limitations, including complex curriculum design for multi-task learning and limited generalization to unseen objects. To overcome these challenges, we introduce ResDex, a novel approach that integrates residual policy learning with a mixture-of-experts (MoE) framework. ResDex is distinguished by its use of geometry-unaware base policies that are efficiently acquired on individual objects and capable of generalizing across a wide range of unseen objects. Our MoE framework incorporates several base policies to facilitate diverse grasping styles suitable for various objects. By learning residual actions alongside weights that combine these base policies, ResDex enables efficient multi-task RL for universal dexterous grasping. ResDex achieves state-of-the-art performance on the DexGraspNet dataset comprising 3,200 objects with an 88.8% success rate. It exhibits no generalization gap with unseen objects and demonstrates superior training efficiency, mastering all tasks within only 12 hours on a single GPU.

arxiv情報

著者 Ziye Huang,Haoqi Yuan,Yuhui Fu,Zongqing Lu
発行日 2024-10-03 13:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | コメントする

Learning Diverse Bimanual Dexterous Manipulation Skills from Human Demonstrations

要約

両手による器用な操作は、ロボット工学において重要でありながら未開拓の分野である。その高次元行動空間と固有のタスクの複雑さは、政策学習にとって重大な課題となり、既存のベンチマークにおける限られたタスクの多様性は、汎用的なスキル開発の妨げとなる。既存のアプローチは強化学習に依存しており、多くの場合、狭いタスクセットに合わせた複雑に設計された報酬関数に制約されている。本研究では、豊富な人間の実演から多様な両手先の器用スキルを効率的に学習するための新しいアプローチを提示する。具体的には、BiDexHDを紹介する。BiDexHDは、既存の両手指データセットからタスクを構築し、全てのタスクに対応するために教師-生徒政策学習を採用するフレームワークである。教師は、共有された振る舞いを持つタスク間で一般的な2段階の報酬関数を用いて状態ベースのポリシーを学習し、生徒は学習されたマルチタスクポリシーをビジョンベースのポリシーに抽出する。BiDexHDにより、自動構築されたタスクから多数の両手器用スキルをスケーラブルに学習することが可能となり、普遍的な両手器用操作に向けた有望な前進を提供する。TACOデータセット(6カテゴリ141タスク)を用いた実証評価では、学習タスクで74.59%、未見タスクで51.07%のタスク達成率を示し、BiDexHDの有効性と競争力のあるゼロショット汎化能力を示しています。ビデオや詳細については、プロジェクトページhttps://sites.google.com/view/bidexhd。

要約(オリジナル)

Bimanual dexterous manipulation is a critical yet underexplored area in robotics. Its high-dimensional action space and inherent task complexity present significant challenges for policy learning, and the limited task diversity in existing benchmarks hinders general-purpose skill development. Existing approaches largely depend on reinforcement learning, often constrained by intricately designed reward functions tailored to a narrow set of tasks. In this work, we present a novel approach for efficiently learning diverse bimanual dexterous skills from abundant human demonstrations. Specifically, we introduce BiDexHD, a framework that unifies task construction from existing bimanual datasets and employs teacher-student policy learning to address all tasks. The teacher learns state-based policies using a general two-stage reward function across tasks with shared behaviors, while the student distills the learned multi-task policies into a vision-based policy. With BiDexHD, scalable learning of numerous bimanual dexterous skills from auto-constructed tasks becomes feasible, offering promising advances toward universal bimanual dexterous manipulation. Our empirical evaluation on the TACO dataset, spanning 141 tasks across six categories, demonstrates a task fulfillment rate of 74.59% on trained tasks and 51.07% on unseen tasks, showcasing the effectiveness and competitive zero-shot generalization capabilities of BiDexHD. For videos and more information, visit our project page https://sites.google.com/view/bidexhd.

arxiv情報

著者 Bohan Zhou,Haoqi Yuan,Yuhui Fu,Zongqing Lu
発行日 2024-10-03 13:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | コメントする

Cross-Embodiment Dexterous Grasping with Reinforcement Learning

要約

器用なハンドは、実世界の複雑な把持タスクに対して大きな可能性を示している。近年の研究では、主に特定のロボットハンドのためのポリシーの学習に焦点が当てられているが、多様な器用ハンドを制御する普遍的なポリシーの開発はほとんど未解明のままである。本研究では、強化学習(RL)を用いて、器用な手指を横断的に把持するポリシーの学習を研究する。本研究では、人間の手が遠隔操作によって様々な器用な手を制御できることに着想を得て、人間の手の固有表現に基づく普遍的な行動空間を提案する。本論文では、人間の手指の固有把持動作に基づく普遍的な動作空間を提案し、この普遍的な動作空間から出力される固有把持動作を、再ターゲッティングマッピングにより各ロボットハンドの具体的な関節動作に変換する。我々は、ロボットハンドの固有知覚を単純化し、指先と掌の位置のみを含むようにし、異なるロボットハンド間で統一された観察空間を提供する。我々のアプローチは、4つの異なる実施形態に渡るYCBデータセットから、単一のビジョンベースのポリシーを使用して、物体を把持することに80%の成功率を示す。さらに、我々の方針は、以前に見たことのない2つの実施形態へのゼロショット汎化を示し、効率的な微調整で大幅な改善を示した。詳細とビデオについては、プロジェクトページhttps://sites.google.com/view/crossdex。

要約(オリジナル)

Dexterous hands exhibit significant potential for complex real-world grasping tasks. While recent studies have primarily focused on learning policies for specific robotic hands, the development of a universal policy that controls diverse dexterous hands remains largely unexplored. In this work, we study the learning of cross-embodiment dexterous grasping policies using reinforcement learning (RL). Inspired by the capability of human hands to control various dexterous hands through teleoperation, we propose a universal action space based on the human hand’s eigengrasps. The policy outputs eigengrasp actions that are then converted into specific joint actions for each robot hand through a retargeting mapping. We simplify the robot hand’s proprioception to include only the positions of fingertips and the palm, offering a unified observation space across different robot hands. Our approach demonstrates an 80% success rate in grasping objects from the YCB dataset across four distinct embodiments using a single vision-based policy. Additionally, our policy exhibits zero-shot generalization to two previously unseen embodiments and significant improvement in efficient finetuning. For further details and videos, visit our project page https://sites.google.com/view/crossdex.

arxiv情報

著者 Haoqi Yuan,Bohan Zhou,Yuhui Fu,Zongqing Lu
発行日 2024-10-03 13:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | コメントする

A Causal Bayesian Network and Probabilistic Programming Based Reasoning Framework for Robot Manipulation Under Uncertainty

要約

実環境におけるロボットの物体操作は困難である。というのも、ロボットの操作は、危険でコストのかかるミスを回避するために、様々なセンシング、推定、作動の不確実性に対してロバストでなければならないからである。本論文では、任意のロボットシステムの不確実性にロバストなロボットの意思決定を可能にするために、ロボットが操作動作の候補を確率的に推論するための、柔軟で一般化可能な物理情報因果ベイズネットワーク(CBN)ベースのフレームワークを提案する。ブロック積み上げタスクの高忠実度Gazeboシミュレーション実験を用いて、我々のフレームワークの能力を実証する:(1)操作結果を高い精度で予測する(Pred Acc: 88.6%)、(2)貪欲な次善行動選択を94.2%のタスク成功率で実行する。また、家庭用ロボットを用いて、本フレームワークが実世界のロボットシステムに適していることを実証する。このように、確率的因果モデリングと物理シミュレーションを組み合わせることで、ロボットの操作をシステムの不確実性に対してより頑健にすることができ、ひいては実世界での応用がより実現可能であることを示す。さらに、我々の一般化された推論フレームワークは、将来のロボット工学と因果性の研究に利用、拡張することができる。

要約(オリジナル)

Robot object manipulation in real-world environments is challenging because robot operation must be robust to a range of sensing, estimation, and actuation uncertainties to avoid potentially unsafe and costly mistakes that are a barrier to their adoption. In this paper, we propose a flexible and generalisable physics-informed causal Bayesian network (CBN) based framework for a robot to probabilistically reason about candidate manipulation actions, to enable robot decision-making robust to arbitrary robot system uncertainties — the first of its kind to use a probabilistic programming language implementation. Using experiments in high-fidelity Gazebo simulation of an exemplar block stacking task, we demonstrate our framework’s ability to: (1) predict manipulation outcomes with high accuracy (Pred Acc: 88.6%); and, (2) perform greedy next-best action selection with 94.2% task success rate. We also demonstrate our framework’s suitability for real-world robot systems with a domestic robot. Thus, we show that by combining probabilistic causal modelling with physics simulations, we can make robot manipulation more robust to system uncertainties and hence more feasible for real-world applications. Further, our generalised reasoning framework can be used and extended for future robotics and causality research.

arxiv情報

著者 Ricardo Cannizzaro,Michael Groom,Jonathan Routley,Robert Osazuwa Ness,Lars Kunze
発行日 2024-10-03 14:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO, G.3, stat.AP | コメントする

SwarmCVT: Centroidal Voronoi Tessellation-Based Path Planning for Very-Large-Scale Robotics

要約

群ロボット工学、あるいは超大規模ロボット工学(VLSR)は、複雑な作業に対して多くの有意義な応用がある。しかし、ロボットの数が増えるにつれて、動作制御の複雑さとエネルギーコストが急速に増大する。この問題に対処するため、我々のこれまでの研究では、巨視的アプローチと微視的アプローチを用いた様々な手法を定式化してきた。これらの手法では、巨視的スケールで観測される基準ガウス混合モデル(GMM)分布に微視的ロボットが準拠することを可能にします。その結果、巨視的レベルを最適化することで、全体として最適な結果が得られる。しかし、これらの方法はすべて、GMM軌道を構築するために、障害物のない領域内でガウス成分(GC)を系統的かつ大域的に生成する必要がある。本研究では、セントロイド・ボロノイ・テッセレーションを利用して、GCを系統的に生成する。その結果、一貫性と信頼性を確保しつつ、性能向上を示す。

要約(オリジナル)

Swarm robotics, or very large-scale robotics (VLSR), has many meaningful applications for complicated tasks. However, the complexity of motion control and energy costs stack up quickly as the number of robots increases. In addressing this problem, our previous studies have formulated various methods employing macroscopic and microscopic approaches. These methods enable microscopic robots to adhere to a reference Gaussian mixture model (GMM) distribution observed at the macroscopic scale. As a result, optimizing the macroscopic level will result in an optimal overall result. However, all these methods require systematic and global generation of Gaussian components (GCs) within obstacle-free areas to construct the GMM trajectories. This work utilizes centroidal Voronoi tessellation to generate GCs methodically. Consequently, it demonstrates performance improvement while also ensuring consistency and reliability.

arxiv情報

著者 James Gao,Jacob Lee,Yuting Zhou,Yunze Hu,Chang Liu,Pingping Zhu
発行日 2024-10-03 14:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY | コメントする

Theory and Explicit Design of a Path Planner for an SE(3) Robot

要約

多面体の障害物の中を移動する、6自由度を持つ剛体空間ロボットの経路計画を考える。このようなロボットのための正しく完全で実用的な経路計画は、ロボット工学における重要な課題として広く認識されているにもかかわらず、これまで実現されたことはない。本論文では、容易に実装可能な明示的な幾何学的プリミティブに至るまで、完全な「明示的」設計を提供する。 我々の設計は、ソフト細分探索(Soft Subdivision Search: SSS)と呼ばれるパスプランナのアルゴリズムフレームワークの中にある。このフレームワークは、厳密な数値実装に重要な$epsilon$-exactnessと柔らかい述語の二つの基礎に基づいている。SSSの実用性は、5自由度空間ロボットを含む様々なロボットで実証されている。 本論文では、SE(3)ロボットに関するいくつかの重要な技術的課題を解決する。(1)まず、SSS理論の基本定理の一般形を証明することにより、正しい理論を保証する。(2)SE(3)ロボットの構成要素の1つである$SE(3)理論の一般的な定理を証明する。(2) $SE(3) = R^3 \times SO(3)$ の構成要素の一つは非ユークリッド空間SO(3)である。SO(3)の新しいトポロジー的に正しいデータ構造を設計する。SO(3)の細分割図とアトラスの概念を用いて、SO(3)の細分割を行うことができる。(3)衝突検出の幾何学的問題は、フットプリント写像を介して$R^3$で行われる。サンプリングに基づくアプローチとは異なり、配置ボックスの足跡という概念で推論しなければならないが、これは特徴付けるのがはるかに難しい。ソフト述語の理論を利用し、適切な近似フットプリントを設計し、非常に効果的な特徴セット技術と組み合わせることで、ソフト述語を導く。(4)最後に、直接実装を可能にするために、基礎となる幾何学的計算を「明示的」にする、すなわち、多項式系の一般的なソルバーを避ける。

要約(オリジナル)

We consider path planning for a rigid spatial robot with 6 degrees of freedom (6 DOFs), moving amidst polyhedral obstacles. A correct, complete and practical path planner for such a robot has never been achieved, although this is widely recognized as a key challenge in robotics. This paper provides a complete ‘explicit’ design, down to explicit geometric primitives that are easily implementable. Our design is within an algorithmic framework for path planners, called Soft Subdivision Search (SSS). The framework is based on the twin foundations of $\epsilon$-exactness and soft predicates, which are critical for rigorous numerical implementations. The practicality of SSS has been previously demonstrated for various robots including 5-DOF spatial robots. In this paper, we solve several significant technical challenges for SE(3) robots: (1) We first ensure the correct theory by proving a general form of the Fundamental Theorem of the SSS theory. We prove this within an axiomatic framework, thus making it easy for future applications of this theory. (2) One component of $SE(3) = R^3 \times SO(3)$ is the non-Euclidean space SO(3). We design a novel topologically correct data structure for SO(3). Using the concept of subdivision charts and atlases for SO(3), we can now carry out subdivision of SO(3). (3) The geometric problem of collision detection takes place in $R^3$, via the footprint map. Unlike sampling-based approaches, we must reason with the notion of footprints of configuration boxes, which is much harder to characterize. Exploiting the theory of soft predicates, we design suitable approximate footprints which, when combined with the highly effective feature-set technique, lead to soft predicates. (4) Finally, we make the underlying geometric computation ‘explicit’, i.e., avoiding a general solver of polynomial systems, in order to allow a direct implementation.

arxiv情報

著者 Zhaoqi Zhang,Yi-Jen Chiang,Chee Yap
発行日 2024-10-03 14:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CG, cs.RO | コメントする

BadRobot: Manipulating Embodied LLMs in the Physical World

要約

体現型AIは、AIが物理的実体に組み込まれ、周囲の環境を知覚し、相互作用することを可能にするシステムを表す。強力な言語理解能力を示すラージ・ランゲージ・モデル(LLM)は、高度なタスク・プランニングを容易にすることで、体現型AIに広く採用されている。しかしながら、安全性に関する重大な問題は見過ごされたままである。すなわち、これらの具現化されたLLMが有害な行動を犯す可能性はあるのだろうか?これに対して、我々はBadRobotを紹介する。BadRobotは、典型的な音声ベースのユーザーとシステムのインタラクションを通じて、具現化LLMに安全性と倫理的制約に違反させることを目的とした新しい攻撃パラダイムである。具体的には、(i)ロボットシステム内でのLLMの操作、(ii)言語出力と物理的動作の不整合、(iii)世界知識の欠陥による意図しない危険行動、の3つの脆弱性を悪用してこの種の攻撃を実現する。さらに、BadRobotの攻撃性能を評価するために、様々な悪意のある物理的行動クエリのベンチマークを構築する。このベンチマークに基づき、既存の著名な具現化LLMフレームワーク(例えば、Voxposer、Code as Policies、ProgPrompt)に対する広範な実験により、我々のBadRobotの有効性を実証する。警告この論文には、AIが生成した有害な言語と攻撃的な行動が含まれています。

要約(オリジナル)

Embodied AI represents systems where AI is integrated into physical entities, enabling them to perceive and interact with their surroundings. Large Language Model (LLM), which exhibits powerful language understanding abilities, has been extensively employed in embodied AI by facilitating sophisticated task planning. However, a critical safety issue remains overlooked: could these embodied LLMs perpetrate harmful behaviors? In response, we introduce BadRobot, a novel attack paradigm aiming to make embodied LLMs violate safety and ethical constraints through typical voice-based user-system interactions. Specifically, three vulnerabilities are exploited to achieve this type of attack: (i) manipulation of LLMs within robotic systems, (ii) misalignment between linguistic outputs and physical actions, and (iii) unintentional hazardous behaviors caused by world knowledge’s flaws. Furthermore, we construct a benchmark of various malicious physical action queries to evaluate BadRobot’s attack performance. Based on this benchmark, extensive experiments against existing prominent embodied LLM frameworks (e.g., Voxposer, Code as Policies, and ProgPrompt) demonstrate the effectiveness of our BadRobot. Warning: This paper contains harmful AI-generated language and aggressive actions.

arxiv情報

著者 Hangtao Zhang,Chenyu Zhu,Xianlong Wang,Ziqi Zhou,Changgan Yin,Minghui Li,Lulu Xue,Yichen Wang,Shengshan Hu,Aishan Liu,Peijin Guo,Leo Yu Zhang
発行日 2024-10-03 14:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.RO | コメントする

SonicSense: Object Perception from In-Hand Acoustic Vibration

要約

SonicSenseを紹介する。SonicSenseは、ハードウェアとソフトウェアから構成される総合的なデザインであり、手指の中の音響振動センシングを通じて、豊かなロボット物体知覚を可能にする。これまでの研究で、物体知覚のための音響センシングは有望な結果を示しているが、現在のソリューションは、単純な形状と均質な材料を持つ一握りの物体、単一指でのセンシング、同じ物体に対する混合トレーニングとテストに制約されている。SonicSenseは、コンテナの在庫状況の識別、異種材料の予測、3D形状の再構築、83の多様な実世界物体からの物体再識別を可能にします。我々のシステムは、シンプルだが効果的なヒューリスティック探索ポリシーを用いて対象物と対話し、エンドツーエンドの学習ベースのアルゴリズムを用いて振動信号を融合させ、対象物の特性を推測する。我々のフレームワークは、ロボットの触覚知覚を進歩させる上で、手の中の音響振動センシングの重要性を強調している。

要約(オリジナル)

We introduce SonicSense, a holistic design of hardware and software to enable rich robot object perception through in-hand acoustic vibration sensing. While previous studies have shown promising results with acoustic sensing for object perception, current solutions are constrained to a handful of objects with simple geometries and homogeneous materials, single-finger sensing, and mixing training and testing on the same objects. SonicSense enables container inventory status differentiation, heterogeneous material prediction, 3D shape reconstruction, and object re-identification from a diverse set of 83 real-world objects. Our system employs a simple but effective heuristic exploration policy to interact with the objects as well as end-to-end learning-based algorithms to fuse vibration signals to infer object properties. Our framework underscores the significance of in-hand acoustic vibration sensing in advancing robot tactile perception.

arxiv情報

著者 Jiaxun Liu,Boyuan Chen
発行日 2024-10-03 14:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.MM, cs.RO, cs.SD, eess.AS | コメントする