FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization

要約

物理的な介護ロボットは、給餌の支援を必要とする世界中の数百万人の生活の質を改善することを約束しています。
ただし、活動の多様性(食事、飲酒、口の拭き取りなど)、コンテキスト(例:社交、テレビの視聴)、食品、および展開中に発生するユーザーの好みのために、家庭内の食事の支援は依然として困難です。
この作業では、個々のケア受信者のユニークなニーズを満たすためにワイルドでパーソナライズできる柔軟な食事補助システムであるFeastを提案します。
2人のコミュニティ研究者と協力して開発され、多様なケア受信者のグループとの形成的研究によって情報を提供され、私たちのシステムは、適応性、透明性、安全性という3つの重要な教義に導かれます。
ごちそうは、次のようにこれらの原則を具体化します。(i)給食、飲酒、マウスワイピングの切り替えを可能にするモジュラーハードウェア、(ii)多様な機能能力と好みに対応するために、Webインターフェイス、ヘッドジェスチャー、物理的ボタンなどの多様な相互作用方法、および(III)パラメーター化された動作を使用して、大規模に添加したパラメーター化された動作を可能にします。
私たちは、私たちの形成研究で特定されたパーソナライズ要件に基づいてシステムを評価し、Feastが幅広い透明で安全な適応を提供し、固定カスタマイズに限定された最先端のベースラインを上回ることを実証します。
実際の適用性を実証するために、2人のケア受信者(コミュニティ研究者)を使用して在宅ユーザー調査を実施し、3つの多様なシナリオでそれぞれ3食を供給します。
以前はこのシステムに不慣れな作業療法士と評価することにより、Feastの生態学的妥当性をさらに評価します。
すべての場合において、ユーザーはごちそうをパーソナライズして、個々のニーズと好みを満たすことに成功します。
ウェブサイト:https://emprise.cs.cornell.edu/feast

要約(オリジナル)

Physical caregiving robots hold promise for improving the quality of life of millions worldwide who require assistance with feeding. However, in-home meal assistance remains challenging due to the diversity of activities (e.g., eating, drinking, mouth wiping), contexts (e.g., socializing, watching TV), food items, and user preferences that arise during deployment. In this work, we propose FEAST, a flexible mealtime-assistance system that can be personalized in-the-wild to meet the unique needs of individual care recipients. Developed in collaboration with two community researchers and informed by a formative study with a diverse group of care recipients, our system is guided by three key tenets for in-the-wild personalization: adaptability, transparency, and safety. FEAST embodies these principles through: (i) modular hardware that enables switching between assisted feeding, drinking, and mouth-wiping, (ii) diverse interaction methods, including a web interface, head gestures, and physical buttons, to accommodate diverse functional abilities and preferences, and (iii) parameterized behavior trees that can be safely and transparently adapted using a large language model. We evaluate our system based on the personalization requirements identified in our formative study, demonstrating that FEAST offers a wide range of transparent and safe adaptations and outperforms a state-of-the-art baseline limited to fixed customizations. To demonstrate real-world applicability, we conduct an in-home user study with two care recipients (who are community researchers), feeding them three meals each across three diverse scenarios. We further assess FEAST’s ecological validity by evaluating with an Occupational Therapist previously unfamiliar with the system. In all cases, users successfully personalize FEAST to meet their individual needs and preferences. Website: https://emprise.cs.cornell.edu/feast

arxiv情報

著者 Rajat Kumar Jenamani,Tom Silver,Ben Dodson,Shiqin Tong,Anthony Song,Yuting Yang,Ziang Liu,Benjamin Howe,Aimee Whitneck,Tapomayukh Bhattacharjee
発行日 2025-06-17 20:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization はコメントを受け付けていません

Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion

要約

四重節は、農業、捜索救助、インフラストラクチャの検査など、いくつかのアプリケーションに大きな有望です。
自律操作を達成するには、システムが複雑でなじみのない環境を安全にナビゲートする必要があります。
このレベルの自律性は、そのような環境の複雑さと、特にサイズ、重量、およびパワー(SWAP)に制約されるプラットフォーム(SWAP)に制約されたリアルタイムの意思決定の必要性により、特に困難です。これは、飛行時間を制限し、マッピングの光検出や範囲(LIDAR)などのかさばるセンサーの使用を排除します。
さらに、グローバルに最適な衝突のないパスを計算し、それらをリアルタイムで時間最適化された安全な軌跡に変換すると、重要な計算の複雑さが追加されます。
これらの課題に対処するために、軽量のオンボードセンサーのみに依存する、完全にオンボードのリアルタイムナビゲーションシステムを紹介します。
当社のシステムは、ステレオと単眼学習ベースの深さを融合する新しい視覚深度推定アプローチを使用して、環境の密な3Dマップを構築し、従来のステレオメソッドよりも長距離、密度が高く、ノイズの少ない深度マップを生成します。
このマップに基づいて、時間最適なグローバル軌跡を迅速に計算できる新しい計画と軌道の生成フレームワークを紹介します。
マップが新しい深度情報で徐々に更新されると、システムは安全性と最適性を維持するために軌道を継続的に改良します。
プランナーと軌道ジェネレーターの両方は、計算効率の観点から最先端の方法よりも優れており、障害物のない軌跡を保証します。
私たちは、多様な屋内および屋外環境での堅牢な自律飛行実験を通じてシステムを検証し、以前は未知の設定での安全なナビゲーションの有効性を示しています。

要約(オリジナル)

Quadrotors hold significant promise for several applications such as agriculture, search and rescue, and infrastructure inspection. Achieving autonomous operation requires systems to navigate safely through complex and unfamiliar environments. This level of autonomy is particularly challenging due to the complexity of such environments and the need for real-time decision making especially for platforms constrained by size, weight, and power (SWaP), which limits flight time and precludes the use of bulky sensors like Light Detection and Ranging (LiDAR) for mapping. Furthermore, computing globally optimal, collision-free paths and translating them into time-optimized, safe trajectories in real time adds significant computational complexity. To address these challenges, we present a fully onboard, real-time navigation system that relies solely on lightweight onboard sensors. Our system constructs a dense 3D map of the environment using a novel visual depth estimation approach that fuses stereo and monocular learning-based depth, yielding longer-range, denser, and less noisy depth maps than conventional stereo methods. Building on this map, we introduce a novel planning and trajectory generation framework capable of rapidly computing time-optimal global trajectories. As the map is incrementally updated with new depth information, our system continuously refines the trajectory to maintain safety and optimality. Both our planner and trajectory generator outperforms state-of-the-art methods in terms of computational efficiency and guarantee obstacle-free trajectories. We validate our system through robust autonomous flight experiments in diverse indoor and outdoor environments, demonstrating its effectiveness for safe navigation in previously unknown settings.

arxiv情報

著者 Jeffrey Mao,Raghuram Cauligi Srinivas,Steven Nogar,Giuseppe Loianno
発行日 2025-06-17 21:01:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion はコメントを受け付けていません

Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors

要約

コンプライアンスは、エンジニアリング、農業、生物医学の用途におけるオブジェクトを記述するための重要なパラメーターです。
従来のコンプライアンス検出方法は、携帯性とスケーラビリティの欠如によって制限され、専門的でしばしば高価な機器に依存しており、ロボットアプリケーションには適していません。
さらに、ビジョンベースの触覚センサーを使用した既存のニューラルネットワークベースのアプローチは、予測の精度が不十分であることに悩まされています。
このホワイトペーパーでは、RGB触覚画像とビジョンベースのセンサーゲルシュがキャプチャしてコンプライアンスメトリックを正確に予測するためにキャプチャされたその他の情報を活用する、長期の再発畳み込みネットワーク(LRCNS)とトランスアーキテクチャに基づいた2つのモデルを提案します。
複数のメトリックを使用してこれらのモデルのパフォーマンスを検証し、コンプライアンスを正確に推定する際の有効性を実証します。
提案されたモデルは、ベースラインよりも大幅なパフォーマンス改善を示します。
さらに、センサーコンプライアンスとオブジェクトコンプライアンスの推定との相関関係を調査しました。これにより、センサーよりも難しいオブジェクトが推定がより困難であることが明らかになりました。

要約(オリジナル)

Compliance is a critical parameter for describing objects in engineering, agriculture, and biomedical applications. Traditional compliance detection methods are limited by their lack of portability and scalability, rely on specialized, often expensive equipment, and are unsuitable for robotic applications. Moreover, existing neural network-based approaches using vision-based tactile sensors still suffer from insufficient prediction accuracy. In this paper, we propose two models based on Long-term Recurrent Convolutional Networks (LRCNs) and Transformer architectures that leverage RGB tactile images and other information captured by the vision-based sensor GelSight to predict compliance metrics accurately. We validate the performance of these models using multiple metrics and demonstrate their effectiveness in accurately estimating compliance. The proposed models exhibit significant performance improvement over the baseline. Additionally, we investigated the correlation between sensor compliance and object compliance estimation, which revealed that objects that are harder than the sensor are more challenging to estimate.

arxiv情報

著者 Ziteng Li,Malte Kuhlmann,Ilana Nisky,Nicolás Navarro-Guerrero
発行日 2025-06-17 21:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.9 | Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors はコメントを受け付けていません

Mass-Adaptive Admittance Control for Robotic Manipulators

要約

不明または変化する質量を持つオブジェクトの処理は、ロボット工学の一般的な課題であり、制御システムがリアルタイムで適応できない場合、多くの場合エラーや不安定性につながります。
このホワイトペーパーでは、6度のフリードムロボットマニピュレーターが、未知のペイロード重量を自動的に推定および補償しながら、ウェイポイントを確実に追跡できるようにする新しいアプローチを紹介します。
私たちの方法は、アドミタンス制御フレームワークを質量推定器と統合し、ロボットがペイロード質量を補うために励起力を動的に更新できるようにします。
この戦略は、エンドエフェクターのたるみを軽減し、不明な重みのオブジェクトを処理するときに安定性を保持します。
クロスバーを備えた棚にある挑戦的なピックアンドプレイスタスクでのアプローチを実験的に検証し、ベースラインのアドロール制度と比較して、ウェイポイントに到達する際の正確性、準拠の動きを改善しました。
未知のペイロードに安全に対応することにより、私たちの作業はロボットオートメーションの柔軟性を高め、不確実な環境の適応制御における重要な前進を表しています。

要約(オリジナル)

Handling objects with unknown or changing masses is a common challenge in robotics, often leading to errors or instability if the control system cannot adapt in real-time. In this paper, we present a novel approach that enables a six-degrees-of-freedom robotic manipulator to reliably follow waypoints while automatically estimating and compensating for unknown payload weight. Our method integrates an admittance control framework with a mass estimator, allowing the robot to dynamically update an excitation force to compensate for the payload mass. This strategy mitigates end-effector sagging and preserves stability when handling objects of unknown weights. We experimentally validated our approach in a challenging pick-and-place task on a shelf with a crossbar, improved accuracy in reaching waypoints and compliant motion compared to a baseline admittance-control scheme. By safely accommodating unknown payloads, our work enhances flexibility in robotic automation and represents a significant step forward in adaptive control for uncertain environments.

arxiv情報

著者 Hossein Gholampour,Jonathon E. Slightam,Logan E. Beaver
発行日 2025-06-17 22:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Mass-Adaptive Admittance Control for Robotic Manipulators はコメントを受け付けていません

DreamGen: Unlocking Generalization in Robot Learning through Video World Models

要約

Dreamgenを紹介します。これは、神経軌道を通じて行動や環境全体で一般化するロボットポリシーをトレーニングするためのシンプルでありながら非常に効果的な4段階のパイプライン – ビデオ世界モデルから生成された合成ロボットデータです。
Dreamgenは、最新の画像からビデオへの生成モデルを活用し、ターゲットロボットの具体化に適応して、多様な環境で馴染みのあるまたは斬新なタスクのフォトリアリスティックな合成ビデオを作成します。
これらのモデルはビデオのみを生成するため、潜在的なアクションモデルまたはinversed-dynamicsモデル(IDM)のいずれかを使用して、擬似アクションシーケンスを回復します。
そのシンプルさにもかかわらず、Dreamgenは強力な行動と環境の一般化を解き放ちます。ヒューマノイドロボットは、見られた環境と目に見えない環境の両方で22の新しい動作を実行できますが、1つの環境で1つのピックアンドプレイスタスクのみからテレオ操作データを必要とします。
パイプラインを体系的に評価するために、ベンチマークのパフォーマンスとダウンストリームポリシーの成功との間に強い相関関係を示すビデオ生成ベンチマークであるDreamGen Benchを紹介します。
私たちの仕事は、手動データ収集を超えてロボット学習をスケーリングするための有望な新しい軸を確立します。
https://github.com/nvidia/gr00t-dreamsで利用可能なコード。

要約(オリジナル)

We introduce DreamGen, a simple yet highly effective 4-stage pipeline for training robot policies that generalize across behaviors and environments through neural trajectories – synthetic robot data generated from video world models. DreamGen leverages state-of-the-art image-to-video generative models, adapting them to the target robot embodiment to produce photorealistic synthetic videos of familiar or novel tasks in diverse environments. Since these models generate only videos, we recover pseudo-action sequences using either a latent action model or an inverse-dynamics model (IDM). Despite its simplicity, DreamGen unlocks strong behavior and environment generalization: a humanoid robot can perform 22 new behaviors in both seen and unseen environments, while requiring teleoperation data from only a single pick-and-place task in one environment. To evaluate the pipeline systematically, we introduce DreamGen Bench, a video generation benchmark that shows a strong correlation between benchmark performance and downstream policy success. Our work establishes a promising new axis for scaling robot learning well beyond manual data collection. Code available at https://github.com/NVIDIA/GR00T-Dreams.

arxiv情報

著者 Joel Jang,Seonghyeon Ye,Zongyu Lin,Jiannan Xiang,Johan Bjorck,Yu Fang,Fengyuan Hu,Spencer Huang,Kaushil Kundalia,Yen-Chen Lin,Loic Magne,Ajay Mandlekar,Avnish Narayan,You Liang Tan,Guanzhi Wang,Jing Wang,Qi Wang,Yinzhen Xu,Xiaohui Zeng,Kaiyuan Zheng,Ruijie Zheng,Ming-Yu Liu,Luke Zettlemoyer,Dieter Fox,Jan Kautz,Scott Reed,Yuke Zhu,Linxi Fan
発行日 2025-06-17 22:33:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | DreamGen: Unlocking Generalization in Robot Learning through Video World Models はコメントを受け付けていません

Six-DoF Hand-Based Teleoperation for Omnidirectional Aerial Robots

要約

全方向性航空ロボットは、位置と向きを完全に6-dof独立した制御を提供し、航空操作に人気を博しています。
ロボットの自律性の進歩は、複雑な航空環境で不可欠な人間によって動作するものです。
マルチローター向けの既存のテレオ操作アプローチは、全方向回転によって提供される追加のDOFを完全に活用できません。
さらに、人間の指の器用さは、より熱心な相互作用のために悪用されるべきです。
この作業では、人間の手の全方向性を無制限の空中ワークスペースにもたらす航空機の遠隔操作システムを提案します。
私たちのシステムには、手のジェスチャーをキャプチャするためのデータグローブとともに、2つのモーショントラッキングマーカーセット(1つは肩に1つ、1つは手にある)が含まれています。
これらの入力を使用して、長距離移動用の球形モードとデカルトモード、正確な操作用の操作モードとロックモードなど、さまざまなタスクの4つのインタラクションモードを設計します。
私たちは、現実世界のバルブへの転換タスクでシステムを評価し、各モードが効果的な空中操作にどのように寄与するかを示します。
この相互作用フレームワークは、航空ロボット工学で人間の器用さを橋渡しし、構造化されていない環境でのテレオ蒸発操作の強化への道を開いています。

要約(オリジナル)

Omnidirectional aerial robots offer full 6-DoF independent control over position and orientation, making them popular for aerial manipulation. Although advancements in robotic autonomy, operating by human remains essential in complex aerial environments. Existing teleoperation approaches for multirotors fail to fully leverage the additional DoFs provided by omnidirectional rotation. Additionally, the dexterity of human fingers should be exploited for more engaged interaction. In this work, we propose an aerial teleoperation system that brings the omnidirectionality of human hands into the unbounded aerial workspace. Our system includes two motion-tracking marker sets — one on the shoulder and one on the hand — along with a data glove to capture hand gestures. Using these inputs, we design four interaction modes for different tasks, including Spherical Mode and Cartesian Mode for long-range moving as well as Operation Mode and Locking Mode for precise manipulation, where the hand gestures are utilized for seamless mode switching. We evaluate our system on a valve-turning task in real world, demonstrating how each mode contributes to effective aerial manipulation. This interaction framework bridges human dexterity with aerial robotics, paving the way for enhanced teleoperated aerial manipulation in unstructured environments.

arxiv情報

著者 Jinjie Li,Jiaxuan Li,Kotaro Kaneko,Liming Shu,Moju Zhao
発行日 2025-06-17 22:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Six-DoF Hand-Based Teleoperation for Omnidirectional Aerial Robots はコメントを受け付けていません

Context Matters: Learning Generalizable Rewards via Calibrated Features

要約

人間の入力からの報酬学習における重要な課題は、望ましいエージェントの動作がしばしばコンテキストに基づいて変化することです。
従来の方法は通常、それぞれの新しいコンテキストを、独自の報酬関数を備えた別のタスクとして扱います。
たとえば、以前に無視されたストーブが熱くなりすぎて周りにはない場合、ロボットは、効率よりも安全性を優先するための根本的な好みが変わらないにもかかわらず、ゼロから新しい報酬を学ぶ必要があります。
コンテキストは、根本的な好み自体ではなく、$ \ textit {caliency} $ – または重要な機能の機能に影響を与えることを観察します。
たとえば、ストーブの熱はロボットの近接性の重要性に影響しますが、人間の安全性の好みは同じままです。
既存のマルチタスクおよびメタIRLメソッドは、コンテキスト依存の表現を学習します$ \ textit {暗黙的に} $ – 好みと機能の重要性を区別せずに、実質的なデータ要件を表現します。
代わりに、$ \ textIT {明示的に} $モデリングコンテキスト依存性の特徴の顕著性とは別にモデリングをモデル化し、新しいコンテキストに適応するモジュラー報酬表現を作成します。
これを達成するために、$ \ textit {Calibrated Feature} $を紹介します – 機能の顕著性に対するコンテキスト効果をキャプチャする表現 – そして、効率的な学習の優先性から顕著性を分離する特殊なペアの比較クエリを提示します。
シミュレートされたユーザーを使用した実験により、この方法によりサンプル効率が大幅に向上することが示されており、同等の報酬の精度を達成するためにベースラインよりも優先順位クエリが10倍少なく、低データレジームで最大15%優れたパフォーマンス(5〜10クエリ)が必要です。
対面ユーザー調査(n = 12)は、参加者が私たちの方法を使用して独自の個人的なコンテキスト設定を効果的に教えることができ、より適応性のあるパーソナライズされた報酬学習を可能にすることができることを示しています。

要約(オリジナル)

A key challenge in reward learning from human input is that desired agent behavior often changes based on context. Traditional methods typically treat each new context as a separate task with its own reward function. For example, if a previously ignored stove becomes too hot to be around, the robot must learn a new reward from scratch, even though the underlying preference for prioritizing safety over efficiency remains unchanged. We observe that context influences not the underlying preference itself, but rather the $\textit{saliency}$–or importance–of reward features. For instance, stove heat affects the importance of the robot’s proximity, yet the human’s safety preference stays the same. Existing multi-task and meta IRL methods learn context-dependent representations $\textit{implicitly}$–without distinguishing between preferences and feature importance–resulting in substantial data requirements. Instead, we propose $\textit{explicitly}$ modeling context-invariant preferences separately from context-dependent feature saliency, creating modular reward representations that adapt to new contexts. To achieve this, we introduce $\textit{calibrated features}$–representations that capture contextual effects on feature saliency–and present specialized paired comparison queries that isolate saliency from preference for efficient learning. Experiments with simulated users show our method significantly improves sample efficiency, requiring 10x fewer preference queries than baselines to achieve equivalent reward accuracy, with up to 15% better performance in low-data regimes (5-10 queries). An in-person user study (N=12) demonstrates that participants can effectively teach their unique personal contextual preferences using our method, enabling more adaptable and personalized reward learning.

arxiv情報

著者 Alexandra Forsey-Smerek,Julie Shah,Andreea Bobu
発行日 2025-06-17 22:48:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Context Matters: Learning Generalizable Rewards via Calibrated Features はコメントを受け付けていません

Assigning Multi-Robot Tasks to Multitasking Robots

要約

既存のパフォーマンスの高いタスク割り当て方法での単純化された仮定の1つは、ロボットがシングルタスクであることです。各ロボットは、いつでも単一のタスクで動作します。
この仮定は、状況によっては行うことは無害ですが、他の状況では非効率的または実行不可能です。
この論文では、マルチロボットタスクをマルチタスクロボットに割り当てることを検討します。
重要な貢献は、マルチタスクによって導入された物理的制約の考慮を組み込んだ新しいタスク割り当てフレームワークです。
これは、そのような制約がほとんど無視されている既存の作業とは対照的です。
問題を策定した後、重み付けされたMax-Satにコンピレーションを提案します。これにより、既存のソルバーを活用してソリューションを活用できます。
より効率的な貪欲なヒューリスティックが導入されます。
評価のために、最初に、シングルタスクロボットが合成ドメインでのマルチタスクの利点を検証するために効率的な最新のベースラインと方法を比較します。
次に、シミュレーションでサイトクリアリングシナリオを使用して、パフォーマンスを実証するためのアプローチでマルチタスクロボットが考慮した複雑なタスク相互作用をさらに説明します。
最後に、私たちのアプローチによってマルチタスクを可能にする方法を示すための物理的な実験を実証します。

要約(オリジナル)

One simplifying assumption in existing and well-performing task allocation methods is that the robots are single-tasking: each robot operates on a single task at any given time. While this assumption is harmless to make in some situations, it can be inefficient or even infeasible in others. In this paper, we consider assigning multi-robot tasks to multitasking robots. The key contribution is a novel task allocation framework that incorporates the consideration of physical constraints introduced by multitasking. This is in contrast to the existing work where such constraints are largely ignored. After formulating the problem, we propose a compilation to weighted MAX-SAT, which allows us to leverage existing solvers for a solution. A more efficient greedy heuristic is then introduced. For evaluation, we first compare our methods with a modern baseline that is efficient for single-tasking robots to validate the benefits of multitasking in synthetic domains. Then, using a site-clearing scenario in simulation, we further illustrate the complex task interaction considered by the multitasking robots in our approach to demonstrate its performance. Finally, we demonstrate a physical experiment to show how multitasking enabled by our approach can benefit task efficiency in a realistic setting.

arxiv情報

著者 Winston Smith,Andrew Boateng,Taha Shaheen,Yu Zhang
発行日 2025-06-18 00:22:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Assigning Multi-Robot Tasks to Multitasking Robots はコメントを受け付けていません

Human-Robot Co-Transportation using Disturbance-Aware MPC with Pose Optimization

要約

このホワイトペーパーでは、モバイルベースとロボットアームを備えたロボットマニピュレーターを使用した、ヒューマンロボットの共輸送のための新しいコントロールアルゴリズムを提案します。
通常のモデル予測制御(MPC)を新しいポーズ最適化メカニズムと統合し、タスク中に障害(人間の行動不確実性やロボット作動騒音など)をより効率的に軽減します。
方法論のコアには、2段階の反復設計が含まれます。各計画地平線で、候補セットからロボットアーム(ジョイント角構成)の最適なポーズを決定し、最低推定制御コストを達成することを目指しています。
この選択は、ロボットの全身制御の最適な入力(モバイルベースとロボットアームの両方を含む)の最適な入力も決定する、妨害を意識した離散代数リカティ方程式(DARE)の解決に基づいています。
提案されたアプローチの有効性を検証するために、さまざまな軌跡やさまざまなレベルの乱れを含むさまざまな条件下でフェッチロボットを使用して、妨害対応のdareの理論的導出を提供し、シミュレートされた実験とハードウェアデモを実行します。
結果は、提案されたアプローチがベースラインアルゴリズムを上回ることを明らかにしています。

要約(オリジナル)

This paper proposes a new control algorithm for human-robot co-transportation using a robot manipulator equipped with a mobile base and a robotic arm. We integrate the regular Model Predictive Control (MPC) with a novel pose optimization mechanism to more efficiently mitigate disturbances (such as human behavioral uncertainties or robot actuation noise) during the task. The core of our methodology involves a two-step iterative design: At each planning horizon, we determine the optimal pose of the robotic arm (joint angle configuration) from a candidate set, aiming to achieve the lowest estimated control cost. This selection is based on solving a disturbance-aware Discrete Algebraic Ricatti Equation (DARE), which also determines the optimal inputs for the robot’s whole body control (including both the mobile base and the robotic arm). To validate the effectiveness of the proposed approach, we provide theoretical derivation for the disturbance-aware DARE and perform simulated experiments and hardware demos using a Fetch robot under varying conditions, including different trajectories and different levels of disturbances. The results reveal that our proposed approach outperforms baseline algorithms.

arxiv情報

著者 Al Jaber Mahmud,Amir Hossain Raj,Duc M. Nguyen,Weizi Li,Xuesu Xiao,Xuan Wang
発行日 2025-06-18 01:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Human-Robot Co-Transportation using Disturbance-Aware MPC with Pose Optimization はコメントを受け付けていません

HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models

要約

大規模な言語モデル(LLM)は、具体化されたエージェントの認知コアとしてますます採用されています。
ただし、継承された幻覚は、観測された物理的環境でユーザーの命令を接地する障害に起因するものであり、存在しない冷蔵庫の検索など、ナビゲーションエラーにつながる可能性があります。
この論文では、LLMベースの具体化されたエージェントにおける幻覚の最初の体系的な研究を、シーンタスクの矛盾の下で長距離タスクを実行する具体化されたエージェントを提示します。
私たちの目標は、幻覚がどの程度発生するか、どのような矛盾がそれらを引き起こすか、そして現在のモデルの反応を理解することです。
これらの目標を達成するために、既存のベンチマークに基づいて構築することにより、幻覚プロービングを構築し、ベースプロンプトよりも最大40倍高く幻覚速度を誘導できます。
2つのシミュレーション環境で12のモデルを評価すると、モデルは推論を示しますが、実行不可能なタスクの処理における基本的な制限を高く評価するシーンタスクの矛盾を解決できないことがわかります。
また、各シナリオの理想的なモデル行動に関する実用的な洞察を提供し、より堅牢で信頼できる計画戦略を開発するためのガイダンスを提供します。

要約(オリジナル)

Large language models (LLMs) are increasingly being adopted as the cognitive core of embodied agents. However, inherited hallucinations, which stem from failures to ground user instructions in the observed physical environment, can lead to navigation errors, such as searching for a refrigerator that does not exist. In this paper, we present the first systematic study of hallucinations in LLM-based embodied agents performing long-horizon tasks under scene-task inconsistencies. Our goal is to understand to what extent hallucinations occur, what types of inconsistencies trigger them, and how current models respond. To achieve these goals, we construct a hallucination probing set by building on an existing benchmark, capable of inducing hallucination rates up to 40x higher than base prompts. Evaluating 12 models across two simulation environments, we find that while models exhibit reasoning, they fail to resolve scene-task inconsistencies-highlighting fundamental limitations in handling infeasible tasks. We also provide actionable insights on ideal model behavior for each scenario, offering guidance for developing more robust and reliable planning strategies.

arxiv情報

著者 Trishna Chakraborty,Udita Ghosh,Xiaopan Zhang,Fahim Faisal Niloy,Yue Dong,Jiachen Li,Amit K. Roy-Chowdhury,Chengyu Song
発行日 2025-06-18 02:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models はコメントを受け付けていません