BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes

要約

我々は、人間の指示と視覚言語モデル(VLM)を活用した、屋外シーンにおける自律的なロボットナビゲーションのための新しいアプローチであるBehAVを発表する。本手法では、Large Language Model (LLM)を用いて人間の指示を解釈し、その指示をナビゲーションガイドラインと行動ガイドラインに分類する。ナビゲーション・ガイドラインは、方向指示(例:「前方に進む」)と関連するランドマーク(例:「青い窓のある建物」)から構成され、行動ガイドラインは、規制行動(例:「踏みとどまる」)と対応するオブジェクト(例:「舗道」)を包含する。我々は、ロボットナビゲーションのために、RGB画像からランドマーク位置を推定するために、ゼロショットのシーン理解能力を持つVLMを用いる。さらに、行動ルールを行動コストマップに基礎づけるためにVLMを利用する新しいシーン表現を導入する。このコストマップは、シーン内の行動オブジェクトの存在を符号化し、その制御動作に基づいてコストを割り当てる。行動コストマップは、ナビゲーションのためにLiDARベースの占有マップと統合される。指示された行動を守りながら屋外シーンをナビゲートするために、我々は無制約モデル予測制御(MPC)ベースのプランナーを提示し、目印に到達することと行動ガイドラインに従うことの両方を優先させる。実世界の様々なシナリオにおいて、四足歩行ロボットを用いてBehAVの性能を評価した結果、フレシェ距離で測定した人間の遠隔操作による行動との整合性が22.49%向上し、最先端の手法と比較して40%高いナビゲーション成功率を達成した。

要約(オリジナル)

We present BehAV, a novel approach for autonomous robot navigation in outdoor scenes guided by human instructions and leveraging Vision Language Models (VLMs). Our method interprets human commands using a Large Language Model (LLM) and categorizes the instructions into navigation and behavioral guidelines. Navigation guidelines consist of directional commands (e.g., ‘move forward until’) and associated landmarks (e.g., ‘the building with blue windows’), while behavioral guidelines encompass regulatory actions (e.g., ‘stay on’) and their corresponding objects (e.g., ‘pavements’). We use VLMs for their zero-shot scene understanding capabilities to estimate landmark locations from RGB images for robot navigation. Further, we introduce a novel scene representation that utilizes VLMs to ground behavioral rules into a behavioral cost map. This cost map encodes the presence of behavioral objects within the scene and assigns costs based on their regulatory actions. The behavioral cost map is integrated with a LiDAR-based occupancy map for navigation. To navigate outdoor scenes while adhering to the instructed behaviors, we present an unconstrained Model Predictive Control (MPC)-based planner that prioritizes both reaching landmarks and following behavioral guidelines. We evaluate the performance of BehAV on a quadruped robot across diverse real-world scenarios, demonstrating a 22.49% improvement in alignment with human-teleoperated actions, as measured by Frechet distance, and achieving a 40% higher navigation success rate compared to state-of-the-art methods.

arxiv情報

著者 Kasun Weerakoon,Mohamed Elnoor,Gershom Seneviratne,Vignesh Rajagopal,Senthil Hariharan Arul,Jing Liang,Mohamed Khalid M Jaffar,Dinesh Manocha
発行日 2024-10-02 19:50:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Sequential Gaussian Variational Inference for Nonlinear State Estimation applied to Robotic Applications

要約

不確実な環境を航行するロボットにとって、確率的な状態推定は不可欠である。推定された状態の不確実性を正確かつ効率的に管理することは、ロバストなロボット操作の鍵となる。しかし、ロボットプラットフォームの非線形性は、高度な推定技術を必要とする重大な課題を提起する。ガウス変分推論(GVI)は推定問題に最適化の視点を提供し、解析的に扱いやすい解とガウス空間の幾何学に由来する効率性を提供する。我々は、非線形性に対処し、効率的な逐次推論プロセスを提供する逐次ガウス変分推論(S-GVI)法を提案する。我々のアプローチは、逐次ベイズ原理をGVIフレームワークに統合し、統計的近似と情報幾何上の勾配更新を用いて対処する。シミュレーションと実世界実験による検証により、最大事後推定(MAP)法よりも状態推定が大幅に改善されることが実証された。

要約(オリジナル)

Probabilistic state estimation is essential for robots navigating uncertain environments. Accurately and efficiently managing uncertainty in estimated states is key to robust robotic operation. However, nonlinearities in robotic platforms pose significant challenges that require advanced estimation techniques. Gaussian variational inference (GVI) offers an optimization perspective on the estimation problem, providing analytically tractable solutions and efficiencies derived from the geometry of Gaussian space. We propose a Sequential Gaussian Variational Inference (S-GVI) method to address nonlinearity and provide efficient sequential inference processes. Our approach integrates sequential Bayesian principles into the GVI framework, which are addressed using statistical approximations and gradient updates on the information geometry. Validations through simulations and real-world experiments demonstrate significant improvements in state estimation over the Maximum A Posteriori (MAP) estimation method.

arxiv情報

著者 Min-Won Seo,Solmaz S. Kia
発行日 2024-10-02 20:37:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

FeelAnyForce: Estimating Contact Force Feedback from Tactile Sensation for Vision-Based Tactile Sensors

要約

本論文では、視覚ベースの触覚センサを用いた3次元接触力の推定問題に取り組む。特に、我々の目標は、異なる視覚ベースの触覚センサ間で汎化しながら、あらゆる物体の大きな範囲(最大15N)の接触力を推定することである。そのため、我々は、力センサーに取り付けられたGelSight Miniセンサーに様々な圧痕を押し付けるロボットアームを用いて200K以上の圧痕のデータセットを収集し、そのデータを用いて力回帰のためのマルチヘッド変換器を訓練した。正確なデータ収集と奥行き接触画像を活用した多目的最適化により、強力な汎化が達成された。原始的な形状とテクスチャに対してのみ学習されたにもかかわらず、この回帰器は、未見の実世界オブジェクトのデータセットにおいて、平均絶対誤差4%を達成した。さらに、他のGelSight miniやDIGITセンサーへの本アプローチの汎化能力を評価し、事前に訓練されたモデルを他の視覚ベースのセンサーに適応させるための再現可能なキャリブレーション手順を提案する。さらに、物体の重量測定や、正確な力フィードバックに依存する繊細な物体の変形制御など、実世界のタスクで本手法を評価した。プロジェクトのウェブページ: http://prg.cs.umd.edu/FeelAnyForce

要約(オリジナル)

In this paper, we tackle the problem of estimating 3D contact forces using vision-based tactile sensors. In particular, our goal is to estimate contact forces over a large range (up to 15 N) on any objects while generalizing across different vision-based tactile sensors. Thus, we collected a dataset of over 200K indentations using a robotic arm that pressed various indenters onto a GelSight Mini sensor mounted on a force sensor and then used the data to train a multi-head transformer for force regression. Strong generalization is achieved via accurate data collection and multi-objective optimization that leverages depth contact images. Despite being trained only on primitive shapes and textures, the regressor achieves a mean absolute error of 4\% on a dataset of unseen real-world objects. We further evaluate our approach’s generalization capability to other GelSight mini and DIGIT sensors, and propose a reproducible calibration procedure for adapting the pre-trained model to other vision-based sensors. Furthermore, the method was evaluated on real-world tasks, including weighing objects and controlling the deformation of delicate objects, which relies on accurate force feedback. Project webpage: http://prg.cs.umd.edu/FeelAnyForce

arxiv情報

著者 Amir-Hossein Shahidzadeh,Gabriele Caddeo,Koushik Alapati,Lorenzo Natale,Cornelia Fermüller,Yiannis Aloimonos
発行日 2024-10-02 21:28:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | コメントする

Low Fidelity Visuo-Tactile Pretraining Improves Vision-Only Manipulation Performance

要約

触覚は実世界の操作課題を解決するための重要な要素であるが、操作用の触覚センサーには壊れやすさやコストなどの使用上の障壁がある。本研究では、精密な事前較正センサに代わるものとして、堅牢で低コストの触覚センサBeadSightを操作の事前訓練に用いる。我々は、BeadSightのような低忠実度のセンサーであっても、触覚プレトレーニングが複雑な操作タスクにおける模倣学習エージェントのパフォーマンスを向上させることができることを示す。我々は、この方法を、より高精度のGelSightセンサーをプリトレーニングの触覚入力として使用した、ベースラインのUSBケーブル差込みタスクに対して実証する。我々の最高のBeadSight事前学習済み視覚触覚エージェントは70%の精度でタスクを完了したのに対し、最高のGelSight事前学習済み視覚触覚エージェントは85%の精度でタスクを完了した。

要約(オリジナル)

Tactile perception is a critical component of solving real-world manipulation tasks, but tactile sensors for manipulation have barriers to use such as fragility and cost. In this work, we engage a robust, low-cost tactile sensor, BeadSight, as an alternative to precise pre-calibrated sensors for a pretraining approach to manipulation. We show that tactile pretraining, even with a low-fidelity sensor as BeadSight, can improve an imitation learning agent’s performance on complex manipulation tasks. We demonstrate this method against a baseline USB cable plugging task, previously achieved with a much higher precision GelSight sensor as the tactile input to pretraining. Our best BeadSight pretrained visuo-tactile agent completed the task with 70\% accuracy compared to 85\% for the best GelSight pretrained visuo-tactile agent, with vision-only inference for both.

arxiv情報

著者 Selam Gano,Abraham George,Amir Barati Farimani
発行日 2024-10-02 21:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Safe Navigation in Unmapped Environments for Robotic Systems with Input Constraints

要約

本論文では、複合制御バリア関数(CBF)を用いた、入力制約と状態制約の下でのマッピングされていない環境におけるナビゲーションと制御のためのアプローチを示す。我々は、リアルタイム知覚フィードバック(例えばLiDAR)が、先験的な未マップ環境におけるローカルな状態制約(例えば障害物のようなローカルな安全制約)をモデル化するローカルなCBFを構築するためにオンラインで使用されるシナリオを考える。このアプローチは、最近得られたN個のローカルCBFから単一の時変CBFを合成するために、ソフトマキシマム関数を用いる。次に、入力制約を、制御ダイナミクスの利用により、コントローラ状態制約に変換する。次に、ソフト・ミニマム関数を用いて、入力制約を、先験的にマップされていない環境をモデル化する時変CBFと合成する。この合成により、1つの緩和されたCBFが得られ、このCBFは、状態制約と入力制約を満たす最適制御を得るための制約付き最適化で用いられる。本アプローチは、LiDARを搭載し、地図にない環境をナビゲートする非ホロノミック地上ロボットのシミュレーションにより検証される。このロボットは、先験的にマッピングされていない障害物を回避し、速度制約と入力制約の両方を満足しながら、環境をうまくナビゲートする。

要約(オリジナル)

This paper presents an approach for navigation and control in unmapped environments under input and state constraints using a composite control barrier function (CBF). We consider the scenario where real-time perception feedback (e.g., LiDAR) is used online to construct a local CBF that models local state constraints (e.g., local safety constraints such as obstacles) in the a priori unmapped environment. The approach employs a soft-maximum function to synthesize a single time-varying CBF from the N most recently obtained local CBFs. Next, the input constraints are transformed into controller-state constraints through the use of control dynamics. Then, we use a soft-minimum function to compose the input constraints with the time-varying CBF that models the a priori unmapped environment. This composition yields a single relaxed CBF, which is used in a constrained optimization to obtain an optimal control that satisfies the state and input constraints. The approach is validated through simulations of a nonholonomic ground robot that is equipped with LiDAR and navigates an unmapped environment. The robot successfully navigates the environment while avoiding the a priori unmapped obstacles and satisfying both speed and input constraints.

arxiv情報

著者 Amirsaeid Safari,Jesse B. Hoagg
発行日 2024-10-03 00:00:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Multi-Robot Relative Pose Estimation and IMU Preintegration Using Passive UWB Transceivers

要約

超広帯域(UWB)システムは、ロボット間の測距・通信手段としてますます普及している。UWBに関連する主な制約は、干渉を避けるために一度に1組のUWBトランシーバしか測距できないことであり、UWBベースの測距のスケーラビリティを妨げている。本論文では、ロボットの役割に階層的な制限を設けることなく、すべてのロボットが近隣の通信ロボットを受動的にリッスンできるレンジングプロトコルを提案する。これは、各ロボットがより多くの測距値を取得し、SE2(3)上で直接、相対的な拡張姿勢状態推定のために事前に統合された慣性計測ユニット(IMU)の測定値をブロードキャストできるようにするために利用される。その結果、オンマニホールド拡張カルマンフィルタ(EKF)を用いたクロック同期・相対姿勢同時推定器(CSRPE)が定式化され、最大7台のロボットについてモンテカルロ計算によるシミュレーションで評価された。この測距プロトコルは、3台のクアッドコプターに搭載されたカスタムメイドのUWBボード上にC言語で実装され、提案されたフィルタは、複数の実験的トライアルで評価され、最大48%のローカライゼーション精度の向上をもたらした。

要約(オリジナル)

Ultra-wideband (UWB) systems are becoming increasingly popular as a means of inter-robot ranging and communication. A major constraint associated with UWB is that only one pair of UWB transceivers can range at a time to avoid interference, hence hindering the scalability of UWB-based localization. In this paper, a ranging protocol is proposed that allows all robots to passively listen on neighbouring communicating robots without any hierarchical restrictions on the role of the robots. This is utilized to allow each robot to obtain more range measurements and to broadcast preintegrated inertial measurement unit (IMU) measurements for relative extended pose state estimation directly on SE2(3). Consequently, a simultaneous clock-synchronization and relative-pose estimator (CSRPE) is formulated using an on-manifold extended Kalman filter (EKF) and is evaluated in simulation using Monte-Carlo runs for up to 7 robots. The ranging protocol is implemented in C on custom-made UWB boards fitted to 3 quadcopters, and the proposed filter is evaluated over multiple experimental trials, yielding up to 48% improvement in localization accuracy.

arxiv情報

著者 Mohammed Ayman Shalaby,Charles Champagne Cossette,Jerome Le Ny,James Richard Forbes
発行日 2024-10-03 00:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, eess.SP | コメントする

VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving

要約

ビジョン言語モデル(VLM)の創発的な推論能力と、自律走行システムの理解可能性を向上させる可能性に動機づけられ、本稿では、モデルベース制御がVLMの意思決定をどのように強化できるかを評価するために、モデル予測制御(MPC)とVLMを組み合わせたVLM-MPCと呼ばれる閉ループ自律走行制御器を紹介する。提案するVLM-MPCは2つの非同期コンポーネントから構成される:上位層のVLMは、フロントカメラの画像、自車両の状態、交通環境の状態、および参照メモリに基づいて、下位層の制御のための走行パラメータ(例えば、希望速度、希望車間距離)を生成する。下位層のMPCは、これらのパラメータを用いてリアルタイムで車両を制御し、エンジンの遅れを考慮し、システム全体に状態フィードバックを提供する。nuScenesデータセットに基づく実験により、様々な環境(夜間、雨、交差点など)において提案するVLM-MPCの有効性を検証した。その結果、VLM-MPCは、VLMベースの制御が衝突の危険性をもたらすシナリオがあるのとは対照的に、一貫してPost Encroachment Time (PET)を安全閾値以上に維持することが実証された。さらに、VLM-MPCは、実際の軌道やVLMベースの制御と比較して、滑らかさを向上させました。異なる環境設定下での挙動を比較することで、VLM-MPCが環境を理解し、合理的な推論を行う能力があることを強調している。さらに、参照記憶と環境エンコーダの2つの主要コンポーネントが、アブレーションテストを通じて応答の安定性に寄与していることを検証する。

要約(オリジナル)

Motivated by the emergent reasoning capabilities of Vision Language Models (VLMs) and their potential to improve the comprehensibility of autonomous driving systems, this paper introduces a closed-loop autonomous driving controller called VLM-MPC, which combines the Model Predictive Controller (MPC) with VLM to evaluate how model-based control could enhance VLM decision-making. The proposed VLM-MPC is structured into two asynchronous components: The upper layer VLM generates driving parameters (e.g., desired speed, desired headway) for lower-level control based on front camera images, ego vehicle state, traffic environment conditions, and reference memory; The lower-level MPC controls the vehicle in real-time using these parameters, considering engine lag and providing state feedback to the entire system. Experiments based on the nuScenes dataset validated the effectiveness of the proposed VLM-MPC across various environments (e.g., night, rain, and intersections). The results demonstrate that the VLM-MPC consistently maintains Post Encroachment Time (PET) above safe thresholds, in contrast to some scenarios where the VLM-based control posed collision risks. Additionally, the VLM-MPC enhances smoothness compared to the real-world trajectories and VLM-based control. By comparing behaviors under different environmental settings, we highlight the VLM-MPC’s capability to understand the environment and make reasoned inferences. Moreover, we validate the contributions of two key components, the reference memory and the environment encoder, to the stability of responses through ablation tests.

arxiv情報

著者 Keke Long,Haotian Shi,Jiaxi Liu,Xiaopeng Li
発行日 2024-10-03 00:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

E2H: A Two-Stage Non-Invasive Neural Signal Driven Humanoid Robotic Whole-Body Control Framework

要約

階層的強化学習に基づく制御の統合やLLMプランニングの活用など、近年のヒューマノイドロボットの進歩は、ロボットが複雑なタスクを実行する能力を著しく向上させている。高度に発達したヒューマノイドロボットとは対照的に、人間が関与する要素は比較的未解明なままである。人型ロボットを脳で直接制御することは、パシフィック・リムやガンダムなどの多くのSF小説にすでに登場している。この研究では、E2H(EEG-to-Humanoid)という革新的なフレームワークを提示し、高周波の非侵襲的神経信号を用いたヒューマノイドロボットの制御を開拓する。非侵襲的な信号の質は、正確な空間的軌跡を解読する上で依然として低いため、我々はE2Hフレームワークを革新的な2段階構成に分解する:1)神経信号(EEG)を意味的な運動キーワードにデコードし、2)正確な運動模倣制御方針を持つLLM促進運動生成を利用して、ヒューマノイド・ロボットの制御を実現する。脳波コマンドでロボットを直接駆動する方法は、特に言語障害、宇宙探査、水中探査のような言語コマンドが実用的でない状況において、人間と機械の協働に新しいアプローチを提供し、大きな可能性を解き放つ。E2Hは、人間とコンピュータの相互作用に計り知れない可能性を秘めた、エキサイティングな未来を垣間見せてくれる。

要約(オリジナル)

Recent advancements in humanoid robotics, including the integration of hierarchical reinforcement learning-based control and the utilization of LLM planning, have significantly enhanced the ability of robots to perform complex tasks. In contrast to the highly developed humanoid robots, the human factors involved remain relatively unexplored. Directly controlling humanoid robots with the brain has already appeared in many science fiction novels, such as Pacific Rim and Gundam. In this work, we present E2H (EEG-to-Humanoid), an innovative framework that pioneers the control of humanoid robots using high-frequency non-invasive neural signals. As the none-invasive signal quality remains low in decoding precise spatial trajectory, we decompose the E2H framework in an innovative two-stage formation: 1) decoding neural signals (EEG) into semantic motion keywords, 2) utilizing LLM facilitated motion generation with a precise motion imitation control policy to realize humanoid robotics control. The method of directly driving robots with brainwave commands offers a novel approach to human-machine collaboration, especially in situations where verbal commands are impractical, such as in cases of speech impairments, space exploration, or underwater exploration, unlocking significant potential. E2H offers an exciting glimpse into the future, holding immense potential for human-computer interaction.

arxiv情報

著者 Yiqun Duan,Jinzhao Zhou,Xiaowei Jiang,Qiang Zhang,Jingkai Sun,Jiahang Cao,Jiaxu Wang,Yiqian Yang,Wen Zhao,Gang Han,Yijie Guo,Chin-Teng Lin
発行日 2024-10-03 01:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.HC, cs.RO | コメントする

Reducing Warning Errors in Driver Support with Personalized Risk Maps

要約

人間に焦点を当てたドライバー支援の問題を考える。最新のパーソナライゼーション概念では、車両制御システムやドライバーモデルのパラメータを推定することができる。しかし、パーソナライズされたモデルを使用し、一般的なリスク警告の形で有効性を評価するアプローチは、現在のところほとんど提案されていない。そこで本論文では、ドライバーの行動に基づいて、指定されたドライバーのパーソナライズされた危険因子を推定する警告システムを提案する。このシステムはその後、パーソナライズされたリスクマップを用いて警告信号を適応させることができる。実験では、縦断追従と交差点シナリオの例を示すが、この新しい警告システムは、パーソナライズされたドライバーへの配慮を使用しないベースラインアプローチと比較して、偽陰性エラーと偽陽性エラーを効果的に減らすことができる。これは、リスク警告とドライバー支援における警告エラーを減らすためのパーソナライゼーションの可能性を強調するものである。

要約(オリジナル)

We consider the problem of human-focused driver support. State-of-the-art personalization concepts allow to estimate parameters for vehicle control systems or driver models. However, there are currently few approaches proposed that use personalized models and evaluate the effectiveness in the form of general risk warning. In this paper, we therefore propose a warning system that estimates a personalized risk factor for the given driver based on the driver’s behavior. The system afterwards is able to adapt the warning signal with personalized Risk Maps. In experiments, we show examples for longitudinal following and intersection scenarios in which the novel warning system can effectively reduce false negative errors and false positive errors compared to a baseline approach which does not use personalized driver considerations. This underlines the potential of personalization for reducing warning errors in risk warning and driver support.

arxiv情報

著者 Tim Puphal,Ryohei Hirano,Takayuki Kawabuchi,Akihito Kimata,Julian Eggert
発行日 2024-10-03 02:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | コメントする

NeRFoot: Robot-Footprint Estimation for Image-Based Visual Servoing

要約

本論文では、静止CCTVカメラによる画像ベースビジュアルサーボ(IBVS)によって制御される移動ロボットの動作領域を拡張するためのニューラル放射輝度場(NeRF)モデルの有用性を検討する。NeRFを3D表現として用いることで、ロボットの足跡を幾何学的に推定し、CNNベースのネットワークを学習させて、ロボットの外観のみから足跡をオンラインで抽出することができる。結果として得られるフットプリントは、ロボット全体のバウンディングボックスよりもタイトな境界となり、ロボットのコントローラがより最適な軌道を規定し、安全な動作フロア領域を拡大することを可能にする。

要約(オリジナル)

This paper investigates the utility of Neural Radiance Fields (NeRF) models in extending the regions of operation of a mobile robot, controlled by Image-Based Visual Servoing (IBVS) via static CCTV cameras. Using NeRF as a 3D-representation prior, the robot’s footprint may be extrapolated geometrically and used to train a CNN-based network to extract it online from the robot’s appearance alone. The resulting footprint results in a tighter bound than a robot-wide bounding box, allowing the robot’s controller to prescribe more optimal trajectories and expand its safe operational floor area.

arxiv情報

著者 Daoxin Zhong,Luke Robinson,Daniele De Martini
発行日 2024-10-03 02:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする