ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

要約

シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地することで進歩しましたが、3Dシーンへの抽象的な高レベルの指示を接地することは依然として困難です。
高レベルの命令は、シーン内のセマンティック要素を明示的に呼び出さない場合があり、高レベルのタスクをより具体的なサブタスクのセットに分割するプロセスでさえ、階層タスク分析と呼ばれるプロセスが環境に依存します。
この作業では、高レベルのタスクを接地されたサブタスクに分解することにより、3Dシーングラフに接地されたタスク階層を生成する最初のフレームワークであるAshitaを提案します。
ASHITAは、LLM支援の階層タスク分析を交互にして、タスク駆動型の3Dシーングラフ構造を使用して、環境の適切な表現を生成します。
私たちの実験は、AshitaがLLMベースラインよりも高レベルのタスクを環境依存のサブタスクに分解する際に大幅に優れていることを示しており、さらに最先端の方法に匹敵する接地性能を達成できることが示されています。

要約(オリジナル)

While recent work in scene reconstruction and understanding has made strides in grounding natural language to physical 3D environments, it is still challenging to ground abstract, high-level instructions to a 3D scene. High-level instructions might not explicitly invoke semantic elements in the scene, and even the process of breaking a high-level task into a set of more concrete subtasks, a process called hierarchical task analysis, is environment-dependent. In this work, we propose ASHiTA, the first framework that generates a task hierarchy grounded to a 3D scene graph by breaking down high-level tasks into grounded subtasks. ASHiTA alternates LLM-assisted hierarchical task analysis, to generate the task breakdown, with task-driven 3D scene graph construction to generate a suitable representation of the environment. Our experiments show that ASHiTA performs significantly better than LLM baselines in breaking down high-level tasks into environment-dependent subtasks and is additionally able to achieve grounding performance comparable to state-of-the-art methods.

arxiv情報

著者 Yun Chang,Leonor Fermoselle,Duy Ta,Bernadette Bucher,Luca Carlone,Jiuguang Wang
発行日 2025-04-10 01:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis はコメントを受け付けていません

Automated Fabrication of Magnetic Soft Microrobots

要約

3Dプリンティングの出現は、多くの業界に革命をもたらし、ソフトロボットについても同様の改善がありました。
ただし、これらの機能デバイスには多くの課題があります。
磁気ソフトロボットには、正しく配向する必要がある磁気粒子の添加が必要です。
3D磁化方向を備えた3D幾何学構造の自動製造には大きなギャップがあります。
完全に自動化された3Dプリンターは、精度、速度、再現性を向上させるように設計されています。
この設計は、直径1.6mmの円形のスポットサイズ(ボクセル)を実現することができました。
更新された光学システムは、50 $ \ mu $ m x 50 $ \ mu $ mの正方形のスポットサイズへの解像度を改善できます。
新しいシステムは、磁気メカニカルシミュレーションを通じて示されるように、より高い解像度の設計を実現します。
「ワーム」、「グリッパー」、「ジッパー」のデザインを含むさまざまなマイクロボットが、新しいスポットサイズで評価されます。

要約(オリジナル)

The advent of 3D printing has revolutionized many industries and has had similar improvements for soft robots. However, many challenges persist for these functional devices. Magnetic soft robots require the addition of magnetic particles that must be correctly oriented. There is a significant gap in the automated fabrication of 3D geometric structures with 3D magnetization direction. A fully automated 3D printer was designed to improve accuracy, speed, and reproducibility. This design was able to achieve a circular spot size (voxels) of 1.6mm in diameter. An updated optical system can improve the resolution to a square spot size of 50$\mu$m by 50$\mu$m. The new system achieves higher resolution designs as shown through magneto-mechanical simulations. Various microrobots including ‘worm’, ‘gripper’ and ‘zipper’ designs are evaluated with the new spot size.

arxiv情報

著者 Kaitlyn Clancy,Siwen Xie,Griffin Smith,Onaizah Onaizah
発行日 2025-04-08 18:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Automated Fabrication of Magnetic Soft Microrobots はコメントを受け付けていません

Comparing Self-Disclosure Themes and Semantics to a Human, a Robot, and a Disembodied Agent

要約

ソーシャルロボットや他の人工エージェントが会話に能力が高まるにつれて、これらのエージェントに対する自己開示の内容と意味がエージェントの具体化に応じて変化するかどうかを理解することが重要です。
この研究では、参加者が人間、ヒューマノイド社会ロボット、および具体化された会話エージェントに自己開示した3つの制御された実験からの会話データを分析しました。
文の埋め込みとクラスタリングを使用して、参加者の開示にテーマを特定し、その後、大きな言語モデルでラベル付けおよび説明されました。
その後、これらのテーマと開示の基礎となるセマンティック構造が、エージェントの具体化によって異なるかどうかを評価しました。
私たちの調査結果は強い一貫性を明らかにしています。テーマの分布は実施形態によって有意な差はありませんでした。セマンティックな類似性分析は、開示が非常に同等の方法で表現されることを示しました。
これらの結果は、具体化が人間と人間とエージェントの相互作用における人間の行動に影響を与える可能性があるが、人間や人工対話者であろうと、人々は開示に一貫したテーマの焦点と意味的構造を維持する傾向があることを示唆しています。

要約(オリジナル)

As social robots and other artificial agents become more conversationally capable, it is important to understand whether the content and meaning of self-disclosure towards these agents changes depending on the agent’s embodiment. In this study, we analysed conversational data from three controlled experiments in which participants self-disclosed to a human, a humanoid social robot, and a disembodied conversational agent. Using sentence embeddings and clustering, we identified themes in participants’ disclosures, which were then labelled and explained by a large language model. We subsequently assessed whether these themes and the underlying semantic structure of the disclosures varied by agent embodiment. Our findings reveal strong consistency: thematic distributions did not significantly differ across embodiments, and semantic similarity analyses showed that disclosures were expressed in highly comparable ways. These results suggest that while embodiment may influence human behaviour in human-robot and human-agent interactions, people tend to maintain a consistent thematic focus and semantic structure in their disclosures, whether speaking to humans or artificial interlocutors.

arxiv情報

著者 Sophie Chiang,Guy Laban,Emily S. Cross,Hatice Gunes
発行日 2025-04-08 18:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Comparing Self-Disclosure Themes and Semantics to a Human, a Robot, and a Disembodied Agent はコメントを受け付けていません

Non-Normalized Solutions of Generalized Nash Equilibrium in Autonomous Racing

要約

共有制約を備えた動的ゲームでは、一般化されたナッシュ平衡(GNE)は、すべてのプレーヤーにわたって共有制約のために同一のラグランジュ乗数を想定する正規化されたソリューションの概念を使用して、しばしば計算されます。
広く使用されていますが、このアプローチは他の潜在的に価値のあるGNEを除外します。
このペーパーでは、3つの重要な貢献を通じて、レースシナリオにおける正規化されたソリューションの制限について説明します。
まず、単純なレースの例で正規化されたソリューションの欠点を強調します。
第二に、非正規化一般化ナッシュ平衡(GNE)を計算するための混合相補性問題(MCP)の定式化に基づいた新しい方法を提案します。
第三に、提案された方法が正規化されたGNEソリューションの制限を克服し、現実的なレースシナリオでより豊かなマルチモーダル相互作用を可能にすることを実証します。

要約(オリジナル)

In dynamic games with shared constraints, Generalized Nash Equilibria (GNE) are often computed using the normalized solution concept, which assumes identical Lagrange multipliers for shared constraints across all players. While widely used, this approach excludes other potentially valuable GNE. This paper addresses the limitations of normalized solutions in racing scenarios through three key contributions. First, we highlight the shortcomings of normalized solutions with a simple racing example. Second, we propose a novel method based on the Mixed Complementarity Problem (MCP) formulation to compute non-normalized Generalized Nash Equilibria (GNE). Third, we demonstrate that our proposed method overcomes the limitations of normalized GNE solutions and enables richer multi-modal interactions in realistic racing scenarios.

arxiv情報

著者 Mark Pustilnik,Antonio Loquercio,Francesco Borrelli
発行日 2025-04-08 20:50:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.RO, math.OC | Non-Normalized Solutions of Generalized Nash Equilibrium in Autonomous Racing はコメントを受け付けていません

Extended Version: Multi-Robot Motion Planning with Cooperative Localization

要約

私たちは、各ロボットが近くのチームメイトのセンサーとして機能できるモーションノイズと測定ノイズの両方で、協同部門(CL-MRMP)の不確実なマルチロボットモーションプランニング(MRMP)問題を考慮します。
CL-MRMPを偶然に制約のあるモーション計画の問題として正式化し、ロボットとロボットの相関を明示的に説明する安全性保証アルゴリズムを提案します。
私たちのアプローチは、サンプリングベースのプランナーを拡張して、CL-MRMPを解決しながら、確率的な完全性を維持します。
効率を向上させるために、新しいバイアス技術を紹介します。
多様なベンチマークを越えて方法を評価し、モーションプランの生成におけるその有効性を実証し、バイアス戦略から大幅にパフォーマンスを向上させます。

要約(オリジナル)

We consider the uncertain multi-robot motion planning (MRMP) problem with cooperative localization (CL-MRMP), under both motion and measurement noise, where each robot can act as a sensor for its nearby teammates. We formalize CL-MRMP as a chance-constrained motion planning problem, and propose a safety-guaranteed algorithm that explicitly accounts for robot-robot correlations. Our approach extends a sampling-based planner to solve CL-MRMP while preserving probabilistic completeness. To improve efficiency, we introduce novel biasing techniques. We evaluate our method across diverse benchmarks, demonstrating its effectiveness in generating motion plans, with significant performance gains from biasing strategies.

arxiv情報

著者 Anne Theurkauf,Nisar Ahmed,Morteza Lahijanian
発行日 2025-04-08 20:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Extended Version: Multi-Robot Motion Planning with Cooperative Localization はコメントを受け付けていません

Classifying Subjective Time Perception in a Multi-robot Control Scenario Using Eye-tracking Information

要約

自動化とモバイルロボット工学が作業環境を再構築するにつれて、生産性に対する期待の高まりは、人間のオペレーターに対する認知的需要を増加させ、潜在的なストレスと認知的過負荷につながります。
オペレーターの精神状態を正確に評価することは、パフォーマンスと幸福を維持するために重要です。
私たちは、主観的な時間知覚を使用します。これは、ストレスと認知負荷によって変更される可能性があり、敏感で低遅延の指標の幸福と認知株の指標です。
時間知覚の歪みは、意思決定、反応時間、および全体的なタスクの有効性に影響を与える可能性があり、適応性のある人間戦車相互作用システムの貴重なメトリックになります。
例として、人間の生理学的信号を使用して人間の戦闘時間の知覚を推定するためにどのように使用できるかを研究します。
人間のオペレーターは、小さなモバイルロボットの群れを導き、制御する必要があります。
アンケートデータに基づいて主観的な時間知覚に分類される視線追跡データを取得します。
我々の結果は、視線追跡データからの人の時間認識を正常に推定することを示しています。
このアプローチは、わずか30秒のデータを使用して、個々のベースの事前トレーニングから利益を得ることができます。
将来の作業では、閉じた制御ループで生理学的データを自動的に分類することにより、人間のオペレーターのニーズに対応するロボットを目指しています。

要約(オリジナル)

As automation and mobile robotics reshape work environments, rising expectations for productivity increase cognitive demands on human operators, leading to potential stress and cognitive overload. Accurately assessing an operator’s mental state is critical for maintaining performance and well-being. We use subjective time perception, which can be altered by stress and cognitive load, as a sensitive, low-latency indicator of well-being and cognitive strain. Distortions in time perception can affect decision-making, reaction times, and overall task effectiveness, making it a valuable metric for adaptive human-swarm interaction systems. We study how human physiological signals can be used to estimate a person’s subjective time perception in a human-swarm interaction scenario as example. A human operator needs to guide and control a swarm of small mobile robots. We obtain eye-tracking data that is classified for subjective time perception based on questionnaire data. Our results show that we successfully estimate a person’s time perception from eye-tracking data. The approach can profit from individual-based pretraining using only 30 seconds of data. In future work, we aim for robots that respond to human operator needs by automatically classifying physiological data in a closed control loop.

arxiv情報

著者 Till Aust,Julian Kaduk,Heiko Hamann
発行日 2025-04-08 21:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | Classifying Subjective Time Perception in a Multi-robot Control Scenario Using Eye-tracking Information はコメントを受け付けていません

Agent-Arena: A General Framework for Evaluating Control Algorithms

要約

ロボット研究は本質的に挑戦的であり、多様な環境と制御アルゴリズムの専門知識を必要とします。
アルゴリズムを新しい環境に適応させることは、データ駆動型の方法での広範なハイパーパラメーターチューニングの必要性によって悪化する重大な困難を引き起こすことがよくあります。
これらの課題に対処するために、幅広いベンチマーク環境にわたる意思決定ポリシーの統合、複製、開発、およびテストを合理化するために設計されたPythonフレームワークであるAgent-Arenaを提示します。
既存のフレームワークとは異なり、エージェントアリーナは、あらゆる種類のコントロールアルゴリズムをサポートするためにユニークに一般化されており、シミュレーションとレアルロボットシナリオの両方に適応できます。
GitHubリポジトリhttps://github.com/halid1020/agent-arena-v0をご覧ください。

要約(オリジナル)

Robotic research is inherently challenging, requiring expertise in diverse environments and control algorithms. Adapting algorithms to new environments often poses significant difficulties, compounded by the need for extensive hyper-parameter tuning in data-driven methods. To address these challenges, we present Agent-Arena, a Python framework designed to streamline the integration, replication, development, and testing of decision-making policies across a wide range of benchmark environments. Unlike existing frameworks, Agent-Arena is uniquely generalised to support all types of control algorithms and is adaptable to both simulation and real-robot scenarios. Please see our GitHub repository https://github.com/halid1020/agent-arena-v0.

arxiv情報

著者 Halid Abdulrahim Kadi,Kasim Terzić
発行日 2025-04-08 22:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SE | Agent-Arena: A General Framework for Evaluating Control Algorithms はコメントを受け付けていません

Semantically Safe Robot Manipulation: From Semantic Scene Understanding to Motion Safeguards

要約

人間中心の環境での安全な相互作用を確保するには、ロボットが人間によって認識された制約を「常識」として理解し、遵守する必要があります(たとえば、「ラップトップの上に水を動かすことは、水がこぼれる可能性があるため安全ではありません」、または「コンテンツを塗ることにつながる可能性があるため安全ではありません」)。
コンピュータービジョンと機械学習における最近の進歩により、ロボットは操作環境についての意味的な理解と理由を獲得することができました。
安全なロボットの意思決定に関する広範な文献が存在しますが、セマンティック理解がこれらの製剤に統合されることはめったにありません。
この作業では、意味的に定義された制約(例えば、安全でない空間的関係、行動、およびポーズ)および幾何学的に定義された制約(例えば、環境衝突および自己衝突の制約)に関してロボット入力を証明するセマンティック安全フィルターフレームワークを提案します。
提案されたアプローチでは、知覚入力が与えられた場合、3D環境のセマンティックマップを構築し、大規模な言語モデルのコンテキスト推論能力を活用して、意味的に安全でない条件を推測します。
これらの意味的に安全でない条件は、制御バリア認証策定を介して安全なアクションにマッピングされます。
テレロタイズ操作タスクで提案されたセマンティックセーフティフィルターを実証し、実際のセマンティック安全の制約に対処する際の有効性をさらに示す現実世界のキッチン環境に適用される学習拡散ポリシーを使用します。
一緒に、これらの実験は、セマンティクスを安全認証に統合するアプローチの能力を強調し、従来の衝突回避を超えて安全なロボット操作を可能にします。

要約(オリジナル)

Ensuring safe interactions in human-centric environments requires robots to understand and adhere to constraints recognized by humans as ‘common sense’ (e.g., ‘moving a cup of water above a laptop is unsafe as the water may spill’ or ‘rotating a cup of water is unsafe as it can lead to pouring its content’). Recent advances in computer vision and machine learning have enabled robots to acquire a semantic understanding of and reason about their operating environments. While extensive literature on safe robot decision-making exists, semantic understanding is rarely integrated into these formulations. In this work, we propose a semantic safety filter framework to certify robot inputs with respect to semantically defined constraints (e.g., unsafe spatial relationships, behaviors, and poses) and geometrically defined constraints (e.g., environment-collision and self-collision constraints). In our proposed approach, given perception inputs, we build a semantic map of the 3D environment and leverage the contextual reasoning capabilities of large language models to infer semantically unsafe conditions. These semantically unsafe conditions are then mapped to safe actions through a control barrier certification formulation. We demonstrate the proposed semantic safety filter in teleoperated manipulation tasks and with learned diffusion policies applied in a real-world kitchen environment that further showcases its effectiveness in addressing practical semantic safety constraints. Together, these experiments highlight our approach’s capability to integrate semantics into safety certification, enabling safe robot operation beyond traditional collision avoidance.

arxiv情報

著者 Lukas Brunke,Yanni Zhang,Ralf Römer,Jack Naimer,Nikola Staykov,Siqi Zhou,Angela P. Schoellig
発行日 2025-04-08 22:48:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Semantically Safe Robot Manipulation: From Semantic Scene Understanding to Motion Safeguards はコメントを受け付けていません

Holistic Fusion: Task- and Setup-Agnostic Robot Localization and State Estimation with Factor Graphs

要約

挑戦的な環境でのモバイルロボットのシームレスな操作には、低遅延の局所的なモーション推定(動的操作など)と正確なグローバルローカリゼーション(例:Wayifning)が必要です。
ほとんどの既存のセンサー融合アプローチは特定のシナリオ向けに設計されていますが、この作業は、その一般性と使いやすさによって区別されるタスクおよびセットアップに依存しないマルチモーダルセンサー融合のための柔軟なオープンソースソリューションを導入します。
ホリスティックフュージョンは、i)ローカルおよびグローバルロボット状態とii)(理論的には無制限)の動的コンテキスト変数の数の複合推定問題としてセンサー融合を定式化します。
この定式化は、概念的な変更なしに無数の現実世界のアプリケーションに適合します。
提案されている因子グラフソリューションにより、異なる参照フレームに関して表現された絶対数、ローカル、およびランドマークの測定値を任意の数の直接融合を可能にします。
さらに、局所的な滑らかさと一貫性は、ロボット状態の信念のジャンプを防ぐために特に注意を払っています。
HFは、典型的なロボットハードウェアで低遅延とスムーズなオンライン状態の推定を可能にし、同時にIMU測定速度で低凍結グローバルローカリゼーションを提供します。
このリリースされたフレームワークの有効性は、3つのロボットプラットフォームの5つの実際のシナリオで実証されており、それぞれに異なるタスク要件があります。

要約(オリジナル)

Seamless operation of mobile robots in challenging environments requires low-latency local motion estimation (e.g., dynamic maneuvers) and accurate global localization (e.g., wayfinding). While most existing sensor-fusion approaches are designed for specific scenarios, this work introduces a flexible open-source solution for task- and setup-agnostic multimodal sensor fusion that is distinguished by its generality and usability. Holistic Fusion formulates sensor fusion as a combined estimation problem of i) the local and global robot state and ii) a (theoretically unlimited) number of dynamic context variables, including automatic alignment of reference frames; this formulation fits countless real-world applications without any conceptual modifications. The proposed factor-graph solution enables the direct fusion of an arbitrary number of absolute, local, and landmark measurements expressed with respect to different reference frames by explicitly including them as states in the optimization and modeling their evolution as random walks. Moreover, local smoothness and consistency receive particular attention to prevent jumps in the robot state belief. HF enables low-latency and smooth online state estimation on typical robot hardware while simultaneously providing low-drift global localization at the IMU measurement rate. The efficacy of this released framework is demonstrated in five real-world scenarios on three robotic platforms, each with distinct task requirements.

arxiv情報

著者 Julian Nubert,Turcan Tuna,Jonas Frey,Cesar Cadena,Katherine J. Kuchenbecker,Shehryar Khattak,Marco Hutter
発行日 2025-04-08 22:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | Holistic Fusion: Task- and Setup-Agnostic Robot Localization and State Estimation with Factor Graphs はコメントを受け付けていません

Zero-Order Control Barrier Functions for Sampled-Data Systems with State and Input Dependent Safety Constraints

要約

システムの安全性を確保するために、サンプリングDATAシステムの新しいゼロオーダー制御バリア機能(ZOCBF)を提案します。
私たちの定式化は、従来の制御障壁機能を一般化し、高関連の程度またはシステムの状態と入力の両方に明示的に依存している程度で安全制約を簡単に処理します。
提案されているZOCBF条件は、差別化操作を必要としません。
代わりに、2つの連続したサンプリングインスタントでZOCBF値の差を計算することが含まれます。
さまざまな問題設定と利用可能な計算リソースに合わせて、ZOCBF条件を実施するための3つの数値アプローチを提案します。
衝突回避の例と不均一な地形のロールオーバー予防の例を通じて、アプローチの有効性を実証します。

要約(オリジナル)

We propose a novel zero-order control barrier function (ZOCBF) for sampled-data systems to ensure system safety. Our formulation generalizes conventional control barrier functions and straightforwardly handles safety constraints with high-relative degrees or those that explicitly depend on both system states and inputs. The proposed ZOCBF condition does not require any differentiation operation. Instead, it involves computing the difference of the ZOCBF values at two consecutive sampling instants. We propose three numerical approaches to enforce the ZOCBF condition, tailored to different problem settings and available computational resources. We demonstrate the effectiveness of our approach through a collision avoidance example and a rollover prevention example on uneven terrains.

arxiv情報

著者 Xiao Tan,Ersin Das,Aaron D. Ames,Joel W. Burdick
発行日 2025-04-08 23:29:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Zero-Order Control Barrier Functions for Sampled-Data Systems with State and Input Dependent Safety Constraints はコメントを受け付けていません