Theory and Explicit Design of a Path Planner for an SE(3) Robot

要約

多面体の障害物の中を移動する、6自由度を持つ剛体空間ロボットの経路計画を考える。このようなロボットのための正しく完全で実用的な経路計画は、ロボット工学における重要な課題として広く認識されているにもかかわらず、これまで実現されたことはない。本論文では、容易に実装可能な明示的な幾何学的プリミティブに至るまで、完全な「明示的」設計を提供する。 我々の設計は、ソフト細分探索(Soft Subdivision Search: SSS)と呼ばれるパスプランナのアルゴリズムフレームワークの中にある。このフレームワークは、厳密な数値実装に重要な$epsilon$-exactnessと柔らかい述語の二つの基礎に基づいている。SSSの実用性は、5自由度空間ロボットを含む様々なロボットで実証されている。 本論文では、SE(3)ロボットに関するいくつかの重要な技術的課題を解決する。(1)まず、SSS理論の基本定理の一般形を証明することにより、正しい理論を保証する。(2)SE(3)ロボットの構成要素の1つである$SE(3)理論の一般的な定理を証明する。(2) $SE(3) = R^3 \times SO(3)$ の構成要素の一つは非ユークリッド空間SO(3)である。SO(3)の新しいトポロジー的に正しいデータ構造を設計する。SO(3)の細分割図とアトラスの概念を用いて、SO(3)の細分割を行うことができる。(3)衝突検出の幾何学的問題は、フットプリント写像を介して$R^3$で行われる。サンプリングに基づくアプローチとは異なり、配置ボックスの足跡という概念で推論しなければならないが、これは特徴付けるのがはるかに難しい。ソフト述語の理論を利用し、適切な近似フットプリントを設計し、非常に効果的な特徴セット技術と組み合わせることで、ソフト述語を導く。(4)最後に、直接実装を可能にするために、基礎となる幾何学的計算を「明示的」にする、すなわち、多項式系の一般的なソルバーを避ける。

要約(オリジナル)

We consider path planning for a rigid spatial robot with 6 degrees of freedom (6 DOFs), moving amidst polyhedral obstacles. A correct, complete and practical path planner for such a robot has never been achieved, although this is widely recognized as a key challenge in robotics. This paper provides a complete ‘explicit’ design, down to explicit geometric primitives that are easily implementable. Our design is within an algorithmic framework for path planners, called Soft Subdivision Search (SSS). The framework is based on the twin foundations of $\epsilon$-exactness and soft predicates, which are critical for rigorous numerical implementations. The practicality of SSS has been previously demonstrated for various robots including 5-DOF spatial robots. In this paper, we solve several significant technical challenges for SE(3) robots: (1) We first ensure the correct theory by proving a general form of the Fundamental Theorem of the SSS theory. We prove this within an axiomatic framework, thus making it easy for future applications of this theory. (2) One component of $SE(3) = R^3 \times SO(3)$ is the non-Euclidean space SO(3). We design a novel topologically correct data structure for SO(3). Using the concept of subdivision charts and atlases for SO(3), we can now carry out subdivision of SO(3). (3) The geometric problem of collision detection takes place in $R^3$, via the footprint map. Unlike sampling-based approaches, we must reason with the notion of footprints of configuration boxes, which is much harder to characterize. Exploiting the theory of soft predicates, we design suitable approximate footprints which, when combined with the highly effective feature-set technique, lead to soft predicates. (4) Finally, we make the underlying geometric computation ‘explicit’, i.e., avoiding a general solver of polynomial systems, in order to allow a direct implementation.

arxiv情報

著者 Zhaoqi Zhang,Yi-Jen Chiang,Chee Yap
発行日 2024-10-03 14:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CG, cs.RO | コメントする

BadRobot: Manipulating Embodied LLMs in the Physical World

要約

体現型AIは、AIが物理的実体に組み込まれ、周囲の環境を知覚し、相互作用することを可能にするシステムを表す。強力な言語理解能力を示すラージ・ランゲージ・モデル(LLM)は、高度なタスク・プランニングを容易にすることで、体現型AIに広く採用されている。しかしながら、安全性に関する重大な問題は見過ごされたままである。すなわち、これらの具現化されたLLMが有害な行動を犯す可能性はあるのだろうか?これに対して、我々はBadRobotを紹介する。BadRobotは、典型的な音声ベースのユーザーとシステムのインタラクションを通じて、具現化LLMに安全性と倫理的制約に違反させることを目的とした新しい攻撃パラダイムである。具体的には、(i)ロボットシステム内でのLLMの操作、(ii)言語出力と物理的動作の不整合、(iii)世界知識の欠陥による意図しない危険行動、の3つの脆弱性を悪用してこの種の攻撃を実現する。さらに、BadRobotの攻撃性能を評価するために、様々な悪意のある物理的行動クエリのベンチマークを構築する。このベンチマークに基づき、既存の著名な具現化LLMフレームワーク(例えば、Voxposer、Code as Policies、ProgPrompt)に対する広範な実験により、我々のBadRobotの有効性を実証する。警告この論文には、AIが生成した有害な言語と攻撃的な行動が含まれています。

要約(オリジナル)

Embodied AI represents systems where AI is integrated into physical entities, enabling them to perceive and interact with their surroundings. Large Language Model (LLM), which exhibits powerful language understanding abilities, has been extensively employed in embodied AI by facilitating sophisticated task planning. However, a critical safety issue remains overlooked: could these embodied LLMs perpetrate harmful behaviors? In response, we introduce BadRobot, a novel attack paradigm aiming to make embodied LLMs violate safety and ethical constraints through typical voice-based user-system interactions. Specifically, three vulnerabilities are exploited to achieve this type of attack: (i) manipulation of LLMs within robotic systems, (ii) misalignment between linguistic outputs and physical actions, and (iii) unintentional hazardous behaviors caused by world knowledge’s flaws. Furthermore, we construct a benchmark of various malicious physical action queries to evaluate BadRobot’s attack performance. Based on this benchmark, extensive experiments against existing prominent embodied LLM frameworks (e.g., Voxposer, Code as Policies, and ProgPrompt) demonstrate the effectiveness of our BadRobot. Warning: This paper contains harmful AI-generated language and aggressive actions.

arxiv情報

著者 Hangtao Zhang,Chenyu Zhu,Xianlong Wang,Ziqi Zhou,Changgan Yin,Minghui Li,Lulu Xue,Yichen Wang,Shengshan Hu,Aishan Liu,Peijin Guo,Leo Yu Zhang
発行日 2024-10-03 14:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.RO | コメントする

SonicSense: Object Perception from In-Hand Acoustic Vibration

要約

SonicSenseを紹介する。SonicSenseは、ハードウェアとソフトウェアから構成される総合的なデザインであり、手指の中の音響振動センシングを通じて、豊かなロボット物体知覚を可能にする。これまでの研究で、物体知覚のための音響センシングは有望な結果を示しているが、現在のソリューションは、単純な形状と均質な材料を持つ一握りの物体、単一指でのセンシング、同じ物体に対する混合トレーニングとテストに制約されている。SonicSenseは、コンテナの在庫状況の識別、異種材料の予測、3D形状の再構築、83の多様な実世界物体からの物体再識別を可能にします。我々のシステムは、シンプルだが効果的なヒューリスティック探索ポリシーを用いて対象物と対話し、エンドツーエンドの学習ベースのアルゴリズムを用いて振動信号を融合させ、対象物の特性を推測する。我々のフレームワークは、ロボットの触覚知覚を進歩させる上で、手の中の音響振動センシングの重要性を強調している。

要約(オリジナル)

We introduce SonicSense, a holistic design of hardware and software to enable rich robot object perception through in-hand acoustic vibration sensing. While previous studies have shown promising results with acoustic sensing for object perception, current solutions are constrained to a handful of objects with simple geometries and homogeneous materials, single-finger sensing, and mixing training and testing on the same objects. SonicSense enables container inventory status differentiation, heterogeneous material prediction, 3D shape reconstruction, and object re-identification from a diverse set of 83 real-world objects. Our system employs a simple but effective heuristic exploration policy to interact with the objects as well as end-to-end learning-based algorithms to fuse vibration signals to infer object properties. Our framework underscores the significance of in-hand acoustic vibration sensing in advancing robot tactile perception.

arxiv情報

著者 Jiaxun Liu,Boyuan Chen
発行日 2024-10-03 14:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.MM, cs.RO, cs.SD, eess.AS | コメントする

ViewActive: Active viewpoint optimization from a single image

要約

人間は、物体を観察する際に、空間的な視覚化と、現在の観察に基づいて最適な視点の候補を思い浮かべる精神的な回転能力の恩恵を受けている。なぜなら、最適な視点は、2次元画像で情景を正確に表現するために不可欠で有益な特徴を提供し、それによって下流のタスクを向上させるからである。 このような人間のような能動的な視点最適化能力をロボットに与えるために、我々は、アスペクトグラフから着想を得た現代的な機械学習アプローチであるViewActiveを提案し、現在の2D画像入力に基づいてのみ視点最適化ガイダンスを提供する。具体的には、3次元視点品質フィールド(VQF)を導入する。VQFは、アスペクトグラフに似た、コンパクトで一貫性のある視点品質分布表現であり、3つの汎用視点品質メトリクス(自己包含率、占有を考慮した表面法線エントロピー、視覚エントロピー)から構成される。軽量なViewActiveネットワーク(シングルGPUで72FPS)は、最先端の物体認識パイプラインの性能を大幅に向上させ、ロボットアプリケーションのリアルタイム動作計画に統合することができます。私たちのコードとデータセットはこちらから入手可能です: https://github.com/jiayi-wu-umd/ViewActive

要約(オリジナル)

When observing objects, humans benefit from their spatial visualization and mental rotation ability to envision potential optimal viewpoints based on the current observation. This capability is crucial for enabling robots to achieve efficient and robust scene perception during operation, as optimal viewpoints provide essential and informative features for accurately representing scenes in 2D images, thereby enhancing downstream tasks. To endow robots with this human-like active viewpoint optimization capability, we propose ViewActive, a modernized machine learning approach drawing inspiration from aspect graph, which provides viewpoint optimization guidance based solely on the current 2D image input. Specifically, we introduce the 3D Viewpoint Quality Field (VQF), a compact and consistent representation for viewpoint quality distribution similar to an aspect graph, composed of three general-purpose viewpoint quality metrics: self-occlusion ratio, occupancy-aware surface normal entropy, and visual entropy. We utilize pre-trained image encoders to extract robust visual and semantic features, which are then decoded into the 3D VQF, allowing our model to generalize effectively across diverse objects, including unseen categories.The lightweight ViewActive network (72 FPS on a single GPU) significantly enhances the performance of state-of-the-art object recognition pipelines and can be integrated into real-time motion planning for robotic applications. Our code and dataset are available here: https://github.com/jiayi-wu-umd/ViewActive

arxiv情報

著者 Jiayi Wu,Xiaomin Lin,Botao He,Cornelia Fermuller,Yiannis Aloimonos
発行日 2024-10-03 14:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation

要約

ロボットが探索し学習する量に制限はないが、その知識はすべて検索可能で実用的である必要がある。しかし、既存の技術は、マルチモーダルであり、データの相関性が高く、知覚に抽象化が必要な具現化領域には直接適用できない。 これらの課題に対処するために、我々は、ナビゲーションと言語生成の両方のための階層的知識を自律的に構築することができるノンパラメトリック記憶システムを備えた具現化エージェントの基礎モデルを強化するフレームワークであるEmbodied-RAGを紹介する。Embodied-RAGは、特定のオブジェクトや雰囲気の全体的な記述など、多様な環境とクエリのタイプにわたって、あらゆる空間的および意味的な解像度を処理する。その中核となるEmbodied-RANGのメモリはセマンティック・フォレスト(意味の森)として構成され、さまざまな詳細レベルの言語記述を保存します。この階層的な構成により、システムは異なるロボットプラットフォーム間で文脈に応じた出力を効率的に生成することができる。我々は、Embodied-RAGがRAGをロボット工学の領域に効果的に橋渡しすることを実証し、19の環境において200以上の説明とナビゲーションのクエリを処理することに成功し、具現化されたエージェントのための汎用的なノンパラメトリックシステムとしての可能性を強調した。

要約(オリジナル)

There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhouse of large-scale non-parametric knowledge, however existing techniques do not directly transfer to the embodied domain, which is multimodal, data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG’s memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 200 explanation and navigation queries across 19 environments, highlighting its promise for general-purpose non-parametric system for embodied agents.

arxiv情報

著者 Quanting Xie,So Yeon Min,Tianyi Zhang,Aarav Bajaj,Ruslan Salakhutdinov,Matthew Johnson-Roberson,Yonatan Bisk
発行日 2024-10-03 15:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

Making Space for Time: The Special Galilean Group and Its Application to Some Robotics Problems

要約

通常SGal(3)と表記される特殊ガリレオ群は10次元リー群であり、その重要な部分群には特殊直交群、特殊ユークリッド群、拡張ポーズ群が含まれる。SGal(3)とそのリー代数について簡単に説明し、その群構造がどのように空間と時間における不確定性の統一的な表現をサポートしているかを示す。我々の目的は、いくつかのロボット工学の問題に対するこの群の潜在的な有用性を強調することである。

要約(オリジナル)

The special Galilean group, usually denoted SGal(3), is a 10-dimensional Lie group whose important subgroups include the special orthogonal group, the special Euclidean group, and the group of extended poses. We briefly describe SGal(3) and its Lie algebra and show how the group structure supports a unified representation of uncertainty in space and time. Our aim is to highlight the potential usefulness of this group for several robotics problems.

arxiv情報

著者 Jonathan Kelly
発行日 2024-10-03 15:29:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, math.GR | コメントする

Extremum Seeking Controlled Wiggling for Tactile Insertion

要約

人間は、コップを食器棚に入れる、ケーブルを配線する、鍵を挿すなどの挿入作業を行う際、対象物をくねらせ、触覚や固有感覚フィードバックを通じてその過程を観察する。近年の触覚センサの進歩により、触覚に基づくアプローチが実現されているが、人間の行動に類似したくねくね動作に基づく一般化された定式化は行われていない。そこで我々は、鍵の種類に大きなばらつきがあるにもかかわらず、制御パラメータを調整することなく、4種類の鍵を4種類の鍵に挿入できる極値探索制御則を提案する。その結果、モデルフリー定式化は、鍵を把持するGelSight Mini触覚センサによって測定されるひずみを最小化しながら、挿入深さを最大化するようにエンドエフェクタのポーズをくねらせる。このアルゴリズムは、並進と姿勢の両方が不確かな状態で、ランダムに初期化した120回の試行で71%の成功率を達成した。240回の決定論的に初期化された試行(並進または回転パラメータが1つだけ摂動される)では、84%の試行が成功した。13Hzの触覚フィードバックが与えられた場合、これらの試行グループの平均挿入時間はそれぞれ262秒と147秒である。

要約(オリジナル)

When humans perform insertion tasks such as inserting a cup into a cupboard, routing a cable, or key insertion, they wiggle the object and observe the process through tactile and proprioceptive feedback. While recent advances in tactile sensors have resulted in tactile-based approaches, there has not been a generalized formulation based on wiggling similar to human behavior. Thus, we propose an extremum-seeking control law that can insert four keys into four types of locks without control parameter tuning despite significant variation in lock type. The resulting model-free formulation wiggles the end effector pose to maximize insertion depth while minimizing strain as measured by a GelSight Mini tactile sensor that grasps a key. The algorithm achieves a 71\% success rate over 120 randomly initialized trials with uncertainty in both translation and orientation. Over 240 deterministically initialized trials, where only one translation or rotation parameter is perturbed, 84\% of trials succeeded. Given tactile feedback at 13 Hz, the mean insertion time for these groups of trials are 262 and 147 seconds respectively.

arxiv情報

著者 Levi Burner,Pavan Mantripragada,Gabriele M. Caddeo,Lorenzo Natale,Cornelia Fermüller,Yiannis Aloimonos
発行日 2024-10-03 15:37:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Trajectory Optimization with Global Yaw Parameterization for Field-of-View Constrained Autonomous Flight

要約

限られた視野のセンサーを持つクアッドローターの軌道生成は、空中探査、取材、検査、ビデオ撮影、ターゲット追跡など数多くの用途がある。ほとんどの先行研究は、ロボットの方位と速度を一致させるか、角度特異性を回避するために限定されたヨー領域を使用することで、候補軌道の実行可能空間を潜在的に制限することで、ヨー軌道の最適化タスクを単純化しています。本論文では、軌道最適化のための新規なヨーパラメータ化手法を提案する。このアプローチは、補足的な2次制約を含み、最終的な決定変数を所望の状態表現に変換することで、固有の特異点を効果的に回避する。この方法により、必要な制御工数が大幅に削減され、最適化の実現性が向上する。さらに、この方法を、ヨー軌道と位置軌道の両方を共同で最適化する必要のある、異なるアプリケーションのいくつかの例に適用する。最終的に、シミュレーションと実世界実験の両方における、提案手法の包括的な数値解析と評価を示す。

要約(オリジナル)

Trajectory generation for quadrotors with limited field-of-view sensors has numerous applications such as aerial exploration, coverage, inspection, videography, and target tracking. Most previous works simplify the task of optimizing yaw trajectories by either aligning the heading of the robot with its velocity, or potentially restricting the feasible space of candidate trajectories by using a limited yaw domain to circumvent angular singularities. In this paper, we propose a novel \textit{global} yaw parameterization method for trajectory optimization that allows a 360-degree yaw variation as demanded by the underlying algorithm. This approach effectively bypasses inherent singularities by including supplementary quadratic constraints and transforming the final decision variables into the desired state representation. This method significantly reduces the needed control effort, and improves optimization feasibility. Furthermore, we apply the method to several examples of different applications that require jointly optimizing over both the yaw and position trajectories. Ultimately, we present a comprehensive numerical analysis and evaluation of our proposed method in both simulation and real-world experiments.

arxiv情報

著者 Yuwei Wu,Yuezhan Tao,Igor Spasojevic,Vijay Kumar
発行日 2024-10-03 17:28:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

GUD: Generation with Unified Diffusion

要約

拡散生成モデルは、データサンプルに徐々にノイズを加えるプロセスを反転させることによって、ノイズをデータに変換する。異なるスケールのシステムを分析する物理学の繰り込み群の概念に触発され、我々は3つの重要な設計的側面を探求することによって拡散モデルを再検討する:1)拡散プロセスが動作する表現の選択(例:ピクセルベース、PCAベース、フーリエベース、ウェーブレットベース)、2)拡散中にデータが変換される事前分布(例:共分散$Sigma$を持つガウシアン)、3)データの異なる部分に別々に適用されるノイズレベルのスケジューリング(成分ごとのノイズスケジュールによって捕捉)。これらの選択に柔軟性を取り入れることで、設計の自由度を大幅に向上させた拡散生成モデルの統一的な枠組みを開発する。特に、標準的な拡散モデルと自己回帰モデル(任意のベース)の間を滑らかに補間するソフト条件モデルを導入し、これら2つのアプローチを概念的に橋渡しする。我々のフレームワークは、より効率的な学習とデータ生成につながる広い設計空間を開き、異なる生成アプローチと生成タスクを統合する新しいアーキテクチャへの道を開く。

要約(オリジナル)

Diffusion generative models transform noise into data by inverting a process that progressively adds noise to data samples. Inspired by concepts from the renormalization group in physics, which analyzes systems across different scales, we revisit diffusion models by exploring three key design aspects: 1) the choice of representation in which the diffusion process operates (e.g. pixel-, PCA-, Fourier-, or wavelet-basis), 2) the prior distribution that data is transformed into during diffusion (e.g. Gaussian with covariance $\Sigma$), and 3) the scheduling of noise levels applied separately to different parts of the data, captured by a component-wise noise schedule. Incorporating the flexibility in these choices, we develop a unified framework for diffusion generative models with greatly enhanced design freedom. In particular, we introduce soft-conditioning models that smoothly interpolate between standard diffusion models and autoregressive models (in any basis), conceptually bridging these two approaches. Our framework opens up a wide design space which may lead to more efficient training and data generation, and paves the way to novel architectures integrating different generative approaches and generation tasks.

arxiv情報

著者 Mathis Gerdes,Max Welling,Miranda C. N. Cheng
発行日 2024-10-03 16:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, hep-th, stat.ML | コメントする

DyGPrompt: Learning Feature and Time Prompts on Dynamic Graphs

要約

動的グラフは、ソーシャルネットワーク、オンライン学習プラットフォーム、クラウドソーシングプロジェクトなど、エンティティ間の進化する相互作用を捉える。動的グラフのモデリングには、動的グラフニューラルネットワーク(DGNN)が主流技術として登場している。しかし、DGNNは一般的にリンク予測タスクで事前学習されており、ノード分類のような下流タスクの目的とは大きな隔たりがある。このギャップを埋めるために、プロンプトベースの学習がグラフ上で注目を集めているが、既存の取り組みのほとんどは静的グラフに焦点を当て、動的グラフの進化を無視している。本稿では、動的グラフモデリングのための新しい事前学習とプロンプト学習のフレームワークであるDYGPROMPTを提案する。DYGPROMPTは、事前学習とプロンプト学習のフレームワークである。次に、ノードと時間の特徴が相互に特徴付け合うことを認識し、下流タスクにおける進化するノード時間パターンをモデル化するために、デュアル条件ネットを提案する。最後に、DYGPROMPTを4つの公開データセットで徹底的に評価・分析する。

要約(オリジナル)

Dynamic graphs capture evolving interactions between entities, such as in social networks, online learning platforms, and crowdsourcing projects. For dynamic graph modeling, dynamic graph neural networks (DGNNs) have emerged as a mainstream technique. However, they are generally pre-trained on the link prediction task, leaving a significant gap from the objectives of downstream tasks such as node classification. To bridge the gap, prompt-based learning has gained traction on graphs, but most existing efforts focus on static graphs, neglecting the evolution of dynamic graphs. In this paper, we propose DYGPROMPT, a novel pre-training and prompt learning framework for dynamic graph modeling. First, we design dual prompts to address the gap in both task objectives and temporal variations across pre-training and downstream tasks. Second, we recognize that node and time features mutually characterize each other, and propose dual condition-nets to model the evolving node-time patterns in downstream tasks. Finally, we thoroughly evaluate and analyze DYGPROMPT through extensive experiments on four public datasets.

arxiv情報

著者 Xingtong Yu,Zhenghao Liu,Yuan Fang,Xinming Zhang
発行日 2024-10-03 16:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする