RoTip: A Finger-Shaped Tactile Sensor with Active Rotation

要約

近年の光学式触覚センサー技術の進歩は、主にセンシング精度の向上とセンシング方式の範囲の拡大に重点が置かれています。
より巧みな操作の要件を満たすためには、触覚センサーをより動的にする動きがあるはずです。
この論文では、独立して制御されるジョイントとその表面全体で接触を感知する機能を備えた独自に設計された、新しい視覚ベースの触覚センサーである RoTip を紹介します。
センサーの回転機能は、物体の表面に接触しながらセンサーを動かすことができるため、日常の物体、特に薄くて柔軟な物体を操作する場合に特に重要です。
操作実験は、私たちが提案する RoTip が剛体および柔軟な物体を操作できることを実証しており、指全体の触覚フィードバックとアクティブな回転機能により、より複雑で正確な操作タスクを探索できる可能性があります。

要約(オリジナル)

In recent years, advancements in optical tactile sensor technology have primarily centred on enhancing sensing precision and expanding the range of sensing modalities. To meet the requirements for more skilful manipulation, there should be a movement towards making tactile sensors more dynamic. In this paper, we introduce RoTip, a novel vision-based tactile sensor that is uniquely designed with an independently controlled joint and the capability to sense contact over its entire surface. The rotational capability of the sensor is particularly crucial for manipulating everyday objects, especially thin and flexible ones, as it enables the sensor to mobilize while in contact with the object’s surface. The manipulation experiments demonstrate the ability of our proposed RoTip to manipulate rigid and flexible objects, and the full-finger tactile feedback and active rotation capabilities have the potential to explore more complex and precise manipulation tasks.

arxiv情報

著者 Xuyang Zhang,Jiaqi Jiang,Shan Luo
発行日 2024-10-01 21:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Human-Robot Co-Transportation with Human Uncertainty-Aware MPC and Pose Optimization

要約

本稿では、移動ベースとロボットアームを備えたロボットマニピュレータに基づく人間とロボットの共同輸送のための新しい制御アルゴリズムを提案する。
主な焦点は、ロボットの全身運動学とポーズの最適化を通じて人間の不確実性に適応することです。
人間の不確実性を明示的にモデル化し、ロボット アームのポーズを最適化するために通常の MPC よりも追加の変数を含む拡張モデル予測制御 (MPC) 定式化を導入します。
私たちの方法論の中核には、2 段階の反復設計が含まれます。各計画期間で、候補セットからロボット アームの最適な姿勢 (関節角度の組み合わせ) を選択し、推定制御コストを最小限に抑えることを目指します。
この選択は、不確実性を考慮した離散代数リカッティ方程式 (DARE) を解くことに基づいており、移動ベースとロボット アームの両方に最適な制御入力も通知されます。
提案されたアプローチの有効性を検証するために、不確実性を考慮した DARE の理論的導出を提供し、さまざまな軌道やノイズ レベルなどのさまざまな条件下でフェッチ ロボットを使用してシミュレーション実験とハードウェア実験を実行します。
結果は、私たちが提案したアプローチがベースライン アルゴリズムを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

This paper proposes a new control algorithm for human-robot co-transportation based on a robot manipulator equipped with a mobile base and a robotic arm. The primary focus is to adapt to human uncertainties through the robot’s whole-body kinematics and pose optimization. We introduce an augmented Model Predictive Control (MPC) formulation that explicitly models human uncertainties and contains extra variables than regular MPC to optimize the pose of the robotic arm. The core of our methodology involves a two-step iterative design: At each planning horizon, we select the best pose of the robotic arm (joint angle combination) from a candidate set, aiming to achieve the lowest estimated control cost. This selection is based on solving an uncertainty-aware Discrete Algebraic Ricatti Equation (DARE), which also informs the optimal control inputs for both the mobile base and the robotic arm. To validate the effectiveness of the proposed approach, we provide theoretical derivation for the uncertainty-aware DARE and perform simulated and hardware experiments using a Fetch robot under varying conditions, including different trajectories and noise levels. The results reveal that our proposed approach outperforms baseline algorithms.

arxiv情報

著者 Al Jaber Mahmud,Amir Hossain Raj,Duc M. Nguyen,Xuesu Xiao,Xuan Wang
発行日 2024-10-01 21:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Exploring How Non-Prehensile Manipulation Expands Capability in Robots Experiencing Multi-Joint Failure

要約

この研究では、多関節ロック (LMJ) の障害が発生してもロボットマニピュレーターが操作タスクを実行できるようにするための戦略として、非把握的マニピュレーション (NPM) と全身インタラクションを検討しています。
LMJ は、2 つ以上のジョイントが動作不能になる重大なシステム障害です。
これらはロボットの構成と制御空間に制約を課し、その結果、把握のみのアプローチの能力と範囲が制限されます。
このアプローチには、次の 3 つのコンポーネントが含まれます。i) ロボットの故障が制約されたワークスペースのモデル化、ii) このワークスペース内の NPM アクションの運動力学マップの生成、および iii) シミュレーションインザループ アプローチを使用する操作アクション プランナー
運動力学マップから実行する最適なアクションを選択します。
実験による評価では、私たちのアプローチにより、LMJ ケースにおける故障が制限された到達可能領域を 79% 増加できることが示されています。
さらに、エンドエフェクターが使用できない場合は最大 88.9% の成功率、使用可能な場合は最大 100% の成功率で現実世界の操作を完了する能力を実証します。

要約(オリジナル)

This work explores non-prehensile manipulation (NPM) and whole-body interaction as strategies for enabling robotic manipulators to conduct manipulation tasks despite experiencing locked multi-joint (LMJ) failures. LMJs are critical system faults where two or more joints become inoperable; they impose constraints on the robot’s configuration and control spaces, consequently limiting the capability and reach of a prehensile-only approach. This approach involves three components: i) modeling the failure-constrained workspace of the robot, ii) generating a kinodynamic map of NPM actions within this workspace, and iii) a manipulation action planner that uses a sim-in-the-loop approach to select the best actions to take from the kinodynamic map. The experimental evaluation shows that our approach can increase the failure-constrained reachable area in LMJ cases by 79%. Further, it demonstrates the ability to complete real-world manipulation with up to 88.9% success when the end-effector is unusable and up to 100% success when it is usable.

arxiv情報

著者 Gilberto Briscoe-Martinez,Anuj Pasricha,Ava Abderezaei,Santosh Chaganti,Sarath Chandra Vajrala,Sri Kanth Popuri,Alessandro Roncone
発行日 2024-10-01 22:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

M2P2: A Multi-Modal Passive Perception Dataset for Off-Road Mobility in Extreme Low-Light Conditions

要約

長時間にわたるオフロードの自律ミッションでは、ロボットが周囲の照明条件に関係なく周囲を継続的に認識する必要があります。
既存の自律システムのほとんどは、環境の幾何学形状とセマンティクスを認識するために、LiDAR、RADAR、飛行時間センサーなどのアクティブ センシングに大きく依存するか、カラー カメラなどの (ステレオ) 可視光イメージング センサーを使用します。
完全に受動的な知覚が必要で、可視光カメラが認識できない程度に照明条件が悪化するシナリオでは、障害物回避などの下流のモビリティタスクのほとんどが不可能になります。
このような課題に対処するために、この論文では、薄明かりから無光の状態でのオフロードモビリティを可能にするマルチモーダル受動的知覚データセット M2P2 を紹介します。
当社は、サーマル、イベント、ステレオ RGB カメラ、GPS、2 つの慣性測定ユニット (IMU)、およびグランド トゥルース用の高解像度 LiDAR を含むマルチモーダル センサー スイートを、新しいマルチセンサー キャリブレーション手順を使用して設計します。
マルチモーダルな知覚ストリームを共通の座標系に効率的に変換します。
当社の 10 時間、32 km のデータセットには、ロボットのオドメトリやアクションなどのモビリティ データも含まれており、明るい場所、暗い場所、光のない状態、さらに舗装された場所、トレイル上、トレイル外の地形もカバーしています。
私たちの結果は、エンドツーエンドの学習と古典的な計画を使用した極度の低照度条件下での受動的な知覚のみによってオフロードモビリティが可能であることを示しています。
プロジェクトの Web サイトは https://cs.gmu.edu/~xiao/Research/M2P2/ にあります。

要約(オリジナル)

Long-duration, off-road, autonomous missions require robots to continuously perceive their surroundings regardless of the ambient lighting conditions. Most existing autonomy systems heavily rely on active sensing, e.g., LiDAR, RADAR, and Time-of-Flight sensors, or use (stereo) visible light imaging sensors, e.g., color cameras, to perceive environment geometry and semantics. In scenarios where fully passive perception is required and lighting conditions are degraded to an extent that visible light cameras fail to perceive, most downstream mobility tasks such as obstacle avoidance become impossible. To address such a challenge, this paper presents a Multi-Modal Passive Perception dataset, M2P2, to enable off-road mobility in low-light to no-light conditions. We design a multi-modal sensor suite including thermal, event, and stereo RGB cameras, GPS, two Inertia Measurement Units (IMUs), as well as a high-resolution LiDAR for ground truth, with a novel multi-sensor calibration procedure that can efficiently transform multi-modal perceptual streams into a common coordinate system. Our 10-hour, 32 km dataset also includes mobility data such as robot odometry and actions and covers well-lit, low-light, and no-light conditions, along with paved, on-trail, and off-trail terrain. Our results demonstrate that off-road mobility is possible through only passive perception in extreme low-light conditions using end-to-end learning and classical planning. The project website can be found at https://cs.gmu.edu/~xiao/Research/M2P2/

arxiv情報

著者 Aniket Datar,Anuj Pokhrel,Mohammad Nazeri,Madhan B. Rao,Chenhui Pan,Yufan Zhang,Andre Harrison,Maggie Wigness,Philip R. Osteen,Jinwei Ye,Xuesu Xiao
発行日 2024-10-01 22:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Learning to Build by Building Your Own Instructions

要約

複雑な視覚オブジェクトの構造的理解は、人工知能の重要な未解決の要素です。
これを研究するために、LTRON で最近提案された Break-and-Make 問題に対する新しい手法を開発しました。この問題では、エージェントは、コンポーネントとその構造に関する情報を収集するために、単一の対話型セッションを使用して、これまで見たことのない LEGO アセンブリを構築する方法を学習する必要があります。
私たちは、独自の視覚的な説明書を作成できる \textbf{\ours} と呼ばれるエージェントを構築することで、この問題に取り組みます。
目に見えないアセンブリを逆アセンブルし、そのイメージを定期的に保存することで、エージェントは一連の命令を作成して、再構築に必要な情報を得ることができます。
これらの命令は、モデルが一度に 1 ステップずつ組み立てプロセスについて推論できるようにする明示的な記憶を形成し、長期にわたる暗黙的な記憶の必要性を回避します。
これにより、これまで可能であったものよりもはるかに大きなレゴ アセンブリでトレーニングできるようになります。
このモデルの力を実証するために、手順に従って構築されたレゴ車両の新しいデータセットをリリースします。このデータセットには、それぞれ平均 31 個のレンガが含まれており、分解と再組み立てには 100 ステップ以上が必要です。
これらのモデルは、モデル自身の間違いから学習できるオンライン模倣学習を使用してトレーニングされます。
最後に、学習環境を簡素化し、使いやすさを向上させる、LTRON と Break-and-Make 問題に対する小さな改善もいくつか提供します。

要約(オリジナル)

Structural understanding of complex visual objects is an important unsolved component of artificial intelligence. To study this, we develop a new technique for the recently proposed Break-and-Make problem in LTRON where an agent must learn to build a previously unseen LEGO assembly using a single interactive session to gather information about its components and their structure. We attack this problem by building an agent that we call \textbf{\ours} that is able to make its own visual instruction book. By disassembling an unseen assembly and periodically saving images of it, the agent is able to create a set of instructions so that it has the information necessary to rebuild it. These instructions form an explicit memory that allows the model to reason about the assembly process one step at a time, avoiding the need for long-term implicit memory. This in turn allows us to train on much larger LEGO assemblies than has been possible in the past. To demonstrate the power of this model, we release a new dataset of procedurally built LEGO vehicles that contain an average of 31 bricks each and require over one hundred steps to disassemble and reassemble. We train these models using online imitation learning which allows the model to learn from its own mistakes. Finally, we also provide some small improvements to LTRON and the Break-and-Make problem that simplify the learning environment and improve usability.

arxiv情報

著者 Aaron Walsman,Muru Zhang,Adam Fishman,Ali Farhadi,Dieter Fox
発行日 2024-10-01 22:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Affordance-Guided Reinforcement Learning via Visual Prompting

要約

強化学習 (RL) を備えたロボットは、報酬信号だけから幅広いスキルを学習できる可能性があります。
ただし、一般的な操作タスクで堅牢かつ高密度の報酬信号を取得することは依然として課題です。
既存の学習ベースのアプローチでは、タスク固有の報酬関数を学習するために、人間による成功と失敗のデモンストレーションなどの重要なデータが必要です。
最近では、物理的コンテキストで視覚的推論を実行し、操作タスクのための粗いロボットの動きを生成できる、ロボット工学のための大規模なマルチモーダル基礎モデルの採用も増えています。
この範囲の機能を動機として、この研究では、自律型 RL のビジョン言語モデル (VLM) によって形成された報酬を活用する方法である、キーポイントベースの改善のためのアフォーダンス ガイダンス (KAGI) を紹介します。
最先端の VLM は、ゼロショットのキーポイントを通じてアフォーダンスに関する印象的な推論を実証しており、私たちはこれらを使用して、自律的なロボット学習を導く高密度の報酬を定義します。
自然言語記述によって指定された現実世界の操作タスクにおいて、KAGI は自律 RL のサンプル効率を向上させ、20K のオンライン微調整ステップでタスクを正常に完了できるようにします。
さらに、事前トレーニングに使用されるドメイン内デモンストレーションの数の削減に対する KAGI の堅牢性を実証し、35,000 のオンライン微調整ステップで同様のパフォーマンスに達します。
プロジェクトのウェブサイト: https://sites.google.com/view/affordance-guided-rl

要約(オリジナル)

Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as human demonstrations of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics that can perform visual reasoning in physical contexts and generate coarse robot motions for manipulation tasks. Motivated by this range of capability, in this work, we present Keypoint-based Affordance Guidance for Improvements (KAGI), a method leveraging rewards shaped by vision-language models (VLMs) for autonomous RL. State-of-the-art VLMs have demonstrated impressive reasoning about affordances through keypoints in zero-shot, and we use these to define dense rewards that guide autonomous robotic learning. On real-world manipulation tasks specified by natural language descriptions, KAGI improves the sample efficiency of autonomous RL and enables successful task completion in 20K online fine-tuning steps. Additionally, we demonstrate the robustness of KAGI to reductions in the number of in-domain demonstrations used for pre-training, reaching similar performance in 35K online fine-tuning steps. Project website: https://sites.google.com/view/affordance-guided-rl

arxiv情報

著者 Olivia Y. Lee,Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn
発行日 2024-10-02 00:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

StraightTrack: Towards Mixed Reality Navigation System for Percutaneous K-wire Insertion

要約

経皮的骨盤外傷手術では、効果的な骨折固定を確保し、不適切な軌道に沿った皮質骨の破壊による合併症を回避するために、キルシュナー ワイヤー (K ワイヤー) を正確に配置することが重要です。
複合現実 (MR) による手術ナビゲーションは、薄型フォーム ファクターでの正確なワイヤ配置の実現に役立ちます。
この分野における現在のアプローチは、ワイヤーが制御されていないため、正確な視覚的フィードバックを保証できないため、現実世界の展開にはまだ適していません。
正確なフィードバックを保証するために、複雑な解剖学的構造における経皮的ワイヤ配置用に設計された MR ナビゲーション システムである StraightTrack を導入します。
StraightTrack は、軟組織や覆われた骨表面との相互作用によるワイヤーの曲がりを軽減する剛性アクセス カニューレを備えたマーカー本体を備えています。
StraightTrack は、カニューレ本体を追跡できる光学式シースルー ヘッドマウント ディスプレイ (OST HMD) と統合されており、視線を失いがちな外部トラッカーを使用せずに、リアルタイムの 3D 視覚化とガイダンスを提供します。
経験豊富な整形外科医 2 名による仮想実験では、StraightTrack はワイヤー配置の精度を向上させ、同等の方法では 12.08 mm 以上および 4.07 度を超えるのに対し、$5.26 \pm 2.29$ mm および $2.88 \pm 1.49$ 度以内の理想的な軌道を達成しました。
MR ナビゲーション システムが成熟し続けるにつれて、StraightTrack は内部骨折固定やその他の経皮整形外科処置における可能性を認識しています。

要約(オリジナル)

In percutaneous pelvic trauma surgery, accurate placement of Kirschner wires (K-wires) is crucial to ensure effective fracture fixation and avoid complications due to breaching the cortical bone along an unsuitable trajectory. Surgical navigation via mixed reality (MR) can help achieve precise wire placement in a low-profile form factor. Current approaches in this domain are as yet unsuitable for real-world deployment because they fall short of guaranteeing accurate visual feedback due to uncontrolled bending of the wire. To ensure accurate feedback, we introduce StraightTrack, an MR navigation system designed for percutaneous wire placement in complex anatomy. StraightTrack features a marker body equipped with a rigid access cannula that mitigates wire bending due to interactions with soft tissue and a covered bony surface. Integrated with an Optical See-Through Head-Mounted Display (OST HMD) capable of tracking the cannula body, StraightTrack offers real-time 3D visualization and guidance without external trackers, which are prone to losing line-of-sight. In phantom experiments with two experienced orthopedic surgeons, StraightTrack improves wire placement accuracy, achieving the ideal trajectory within $5.26 \pm 2.29$ mm and $2.88 \pm 1.49$ degree, compared to over 12.08 mm and 4.07 degree for comparable methods. As MR navigation systems continue to mature, StraightTrack realizes their potential for internal fracture fixation and other percutaneous orthopedic procedures.

arxiv情報

著者 Han Zhang,Benjamin D. Killeen,Yu-Chun Ku,Lalithkumar Seenivasan,Yuxuan Zhao,Mingxu Liu,Yue Yang,Suxi Gu,Alejandro Martin-Gomez,Russell H. Taylor,Greg Osgood,Mathias Unberath
発行日 2024-10-02 00:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models

要約

大規模言語モデル (LLM) は、ロボット操作やナビゲーションを含むさまざまなタスクにわたって言語命令を実行するように身体化されたエージェントを導く上で、大きな可能性を示しています。
ただし、既存の方法は主に静的環境向けに設計されており、エージェント自身の経験を活用して初期計画を改善することはありません。
現実世界の環境は本質的に確率論的であるため、静的シナリオとは異なり、LLM の一般知識のみに基づいた初期計画は目的を達成できない可能性があります。
この制限に対処するために、この研究では、LLM の知識だけでなくエージェントの実世界の経験を統合し、人間の感情的反応からインスピレーションを得たエクスペリエンスと感情マップ (E2Map) を導入しました。
提案された方法論では、エージェントの経験に基づいて E2Map を更新することで、ワンショットの動作調整が可能になります。
シミュレーションと現実世界のシナリオの両方を含む確率的ナビゲーション環境での評価では、提案された方法が既存の LLM ベースのアプローチと比較して確率的環境でのパフォーマンスが大幅に向上することが実証されています。
コードと補足資料は https://e2map.github.io/ で入手できます。

要約(オリジナル)

Large language models (LLMs) have shown significant potential in guiding embodied agents to execute language instructions across a range of tasks, including robotic manipulation and navigation. However, existing methods are primarily designed for static environments and do not leverage the agent’s own experiences to refine its initial plans. Given that real-world environments are inherently stochastic, initial plans based solely on LLMs’ general knowledge may fail to achieve their objectives, unlike in static scenarios. To address this limitation, this study introduces the Experience-and-Emotion Map (E2Map), which integrates not only LLM knowledge but also the agent’s real-world experiences, drawing inspiration from human emotional responses. The proposed methodology enables one-shot behavior adjustments by updating the E2Map based on the agent’s experiences. Our evaluation in stochastic navigation environments, including both simulations and real-world scenarios, demonstrates that the proposed method significantly enhances performance in stochastic environments compared to existing LLM-based approaches. Code and supplementary materials are available at https://e2map.github.io/.

arxiv情報

著者 Chan Kim,Keonwoo Kim,Mintaek Oh,Hanbi Baek,Jiyang Lee,Donghwi Jung,Soojin Woo,Younkyung Woo,John Tucker,Roya Firoozi,Seung-Woo Seo,Mac Schwager,Seong-Woo Kim
発行日 2024-10-02 00:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Large Language Models as Zero-Shot Human Models for Human-Robot Interaction

要約

ヒューマン モデルはヒューマン ロボット インタラクション (HRI) において重要な役割を果たし、ロボットが自分の行動が人に与える影響を考慮し、それに応じて行動を計画できるようにします。
ただし、優れた人体モデルを作成するのは困難です。
コンテキスト依存の人間の行動を捉えるには、重要な事前知識や大量のインタラクション データが必要ですが、どちらも入手するのが困難です。
この研究では、人間が生成した膨大な量のテキスト データを消費する大規模言語モデル (LLM) が、HRI のゼロショット ヒューマン モデルとして機能する可能性を探ります。
3 つの社会データセットに対する私たちの実験では、有望な結果が得られました。
LLM は、専用モデルと同等のパフォーマンスを達成できます。
そうは言っても、プロンプトに対する感度や空間的/数値的推論の誤りなど、現在の制限についても説明します。
私たちの発見に基づいて、LLM ベースの人体モデルをソーシャル ロボットの計画プロセスにどのように統合し、HRI シナリオに適用できるかを示します。
具体的には、信頼ベースのテーブルクリアタスクのシミュレーションに関する 1 つのケーススタディを紹介し、カスタム モデルに依存した過去の結果を再現します。
次に、新しいロボット器具通過実験 (n = 65) を実施します。この実験では、LLM ベースの人体モデルを使用して計画を立てると、基本的な近視計画よりも効果が得られることが暫定結果で示されました。
要約すると、私たちの結果は、LLM が HRI の人間モデリングに対して有望な (しかし不完全な) アプローチを提供することを示しています。

要約(オリジナル)

Human models play a crucial role in human-robot interaction (HRI), enabling robots to consider the impact of their actions on people and plan their behavior accordingly. However, crafting good human models is challenging; capturing context-dependent human behavior requires significant prior knowledge and/or large amounts of interaction data, both of which are difficult to obtain. In this work, we explore the potential of large-language models (LLMs) — which have consumed vast amounts of human-generated text data — to act as zero-shot human models for HRI. Our experiments on three social datasets yield promising results; the LLMs are able to achieve performance comparable to purpose-built models. That said, we also discuss current limitations, such as sensitivity to prompts and spatial/numerical reasoning mishaps. Based on our findings, we demonstrate how LLM-based human models can be integrated into a social robot’s planning process and applied in HRI scenarios. Specifically, we present one case study on a simulated trust-based table-clearing task and replicate past results that relied on custom models. Next, we conduct a new robot utensil-passing experiment (n = 65) where preliminary results show that planning with a LLM-based human model can achieve gains over a basic myopic plan. In summary, our results show that LLMs offer a promising (but incomplete) approach to human modeling for HRI.

arxiv情報

著者 Bowen Zhang,Harold Soh
発行日 2024-10-02 00:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG, cs.RO | コメントする

Improving Zero-Shot ObjectNav with Generative Communication

要約

我々は、潜在的に利用可能な環境認識をナビゲーション支援に利用することを目的とした、ゼロショット ObjectNav を改善するための新しい方法を提案します。
私たちのアプローチでは、地上職員の視界が制限され、場合によっては視界が遮られる可能性があることを考慮しています。
私たちの定式化は、ターゲット オブジェクトを含むグローバル ビューを持つ支援オーバーヘッド エージェントと難読化されたビューを持つ地上エージェント間の生成コミュニケーション (GC) を促進します。
どちらも、視覚から言語への翻訳のための視覚言語モデル (VLM) を備えています。
この支援セットアップでは、地上エージェントがターゲットに向かってアクションを実行する前に、実体エージェントが環境情報を通信します。
オーバーヘッドエージェントがターゲットに対して全体的な視野を持っているにもかかわらず、完全に協力的な支援スキームのパフォーマンスが、支援なしのベースラインと比較して低下していることに注目します(OSRで-13%、SPLで-13%)。
対照的に、地上エージェントが独立した探索行動を維持する選択的支援スキームでは、10% の OSR と 7.65% の SPL の改善が示されています。
ナビゲーションのパフォーマンスを説明するために、GC の固有の特性を分析し、幻覚と協力の存在を定量化します。
具体的には、具体化された設定における先制幻覚の新しい言語的特徴を特定し、地上エージェントがまだ移動していないときに地上エージェントが対話でアクションを実行したと頭上エージェントが想定し、そのナビゲーションパフォーマンスとの強い相関関係に注目します。
私たちは実際の実験を実施し、ObjectNav のパフォーマンスを向上させるための迅速な微調整によって幻覚を軽減する定性的な例をいくつか紹介します。

要約(オリジナル)

We propose a new method for improving zero-shot ObjectNav that aims to utilize potentially available environmental percepts for navigational assistance. Our approach takes into account that the ground agent may have limited and sometimes obstructed view. Our formulation encourages Generative Communication (GC) between an assistive overhead agent with a global view containing the target object and the ground agent with an obfuscated view; both equipped with Vision-Language Models (VLMs) for vision-to-language translation. In this assisted setup, the embodied agents communicate environmental information before the ground agent executes actions towards a target. Despite the overhead agent having a global view with the target, we note a drop in performance (-13% in OSR and -13% in SPL) of a fully cooperative assistance scheme over an unassisted baseline. In contrast, a selective assistance scheme where the ground agent retains its independent exploratory behaviour shows a 10% OSR and 7.65% SPL improvement. To explain navigation performance, we analyze the GC for unique traits, quantifying the presence of hallucination and cooperation. Specifically, we identify the novel linguistic trait of preemptive hallucination in our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move, and note its strong correlation with navigation performance. We conduct real-world experiments and present some qualitative examples where we mitigate hallucinations via prompt finetuning to improve ObjectNav performance.

arxiv情報

著者 Vishnu Sashank Dorbala,Vishnu Dutt Sharma,Pratap Tokekar,Dinesh Manocha
発行日 2024-10-02 01:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする