Bi-Level Motion Imitation for Humanoid Robots

要約

人間のモーションキャプチャ(MoCap)データからの模倣学習は、ヒューマノイドロボットの訓練に有望な方法を提供します。しかし、関節の自由度や力の限界などの形態の違いにより、人間の行動を忠実に再現することは、ヒューマノイドロボットでは実現不可能な場合があります。その結果、物理的に実現不可能なMoCapデータを訓練データセットに組み込むことは、ロボットポリシーの性能に悪影響を及ぼす可能性があります。この問題に対処するため、我々は、ロボット政策とターゲットMoCapデータの両方を交互に最適化する、2レベルの最適化に基づく模倣学習フレームワークを提案する。具体的には、まず新しい自己無撞着自動エンコーダを用いた潜在的ダイナミクスモデルを開発し、データセット中の望ましい運動パターンを捉えながら、スパースで構造化された運動表現を学習する。このモデルは、データセット中の所望のモーションパターンを捉えながら、スパースで構造化されたモーション表現を学習する。次に、このダイナミクスモデルは、参照モーションを生成するために利用され、潜在的表現は2レベルのモーション模倣プロセスを正則化する。ヒューマノイドロボットの現実的なモデルを用いて行ったシミュレーションにより、本手法が、参照モーションを物理的に整合するように修正することにより、ロボットポリシーを向上させることが実証された。

要約(オリジナル)

Imitation learning from human motion capture (MoCap) data provides a promising way to train humanoid robots. However, due to differences in morphology, such as varying degrees of joint freedom and force limits, exact replication of human behaviors may not be feasible for humanoid robots. Consequently, incorporating physically infeasible MoCap data in training datasets can adversely affect the performance of the robot policy. To address this issue, we propose a bi-level optimization-based imitation learning framework that alternates between optimizing both the robot policy and the target MoCap data. Specifically, we first develop a generative latent dynamics model using a novel self-consistent auto-encoder, which learns sparse and structured motion representations while capturing desired motion patterns in the dataset. The dynamics model is then utilized to generate reference motions while the latent representation regularizes the bi-level motion imitation process. Simulations conducted with a realistic model of a humanoid robot demonstrate that our method enhances the robot policy by modifying reference motions to be physically consistent.

arxiv情報

著者 Wenshuai Zhao,Yi Zhao,Joni Pajarinen,Michael Muehlebach
発行日 2024-10-02 19:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust

要約

大規模なインターネットデータやロボットのデモンストレーションで学習された視覚言語行動(VLA)モデルは、汎用のロボット政策として役立つ可能性がある。しかし、大規模な学習にもかかわらず、VLAはしばしば、注意散漫な物体や背景色などのタスクに無関係な視覚的詳細に対して脆弱である。我々は、BYOVLA(Bring Your Own VLA)を紹介する。BYOVLAは、(1)モデルが敏感な入力画像の領域を動的に特定し、(2)自動画像編集ツールを用いて、モデルの感度を下げるためにタスクに無関係な領域を最小限に変更する、実行時介入スキームである。我々のアプローチは、モデルの微調整やモデルの重みへのアクセスを必要としない、市販のVLAと互換性がある。言語で指示された操作タスクに関するハードウェア実験では、BYOVLAを使用することで、タスクの成功率を最大40%低下させるような注意散漫な物体や背景が存在する場合でも、最先端のVLAモデルが公称性能をほぼ維持できることが実証されています。追加情報、ビデオ、コードを含むウェブサイト: https://aasherh.github.io/byovla/ .

要約(オリジナル)

Vision-language-action (VLA) models trained on large-scale internet data and robot demonstrations have the potential to serve as generalist robot policies. However, despite their large-scale training, VLAs are often brittle to task-irrelevant visual details such as distractor objects or background colors. We introduce Bring Your Own VLA (BYOVLA): a run-time intervention scheme that (1) dynamically identifies regions of the input image that the model is sensitive to, and (2) minimally alters task-irrelevant regions to reduce the model’s sensitivity using automated image editing tools. Our approach is compatible with any off the shelf VLA without model fine-tuning or access to the model’s weights. Hardware experiments on language-instructed manipulation tasks demonstrate that BYOVLA enables state-of-the-art VLA models to nearly retain their nominal performance in the presence of distractor objects and backgrounds, which otherwise degrade task success rates by up to 40%. Website with additional information, videos, and code: https://aasherh.github.io/byovla/ .

arxiv情報

著者 Asher J. Hancock,Allen Z. Ren,Anirudha Majumdar
発行日 2024-10-02 19:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | コメントする

Scaling Manipulation Learning with Visual Kinematic Chain Prediction

要約

多様なデータセットから汎用モデルを学習することは、機械学習において大きな成功を収めている。しかし、ロボット工学においては、既存のマルチタスク学習手法は、通常、単一のロボットと作業空間に制約されている。一方、RT-Xのような最近の研究は、多様な環境における異なる行動空間間のギャップを手動で埋めるために、非自明な行動正規化手順を必要とする。本論文では、多様な環境におけるロボット学習のための準静的行動の正確で普遍的な表現として、ビジュアルキネマティクスチェーンを提案する。ビジュアルキネマティクスチェーンは、ロボットのモデルとカメラパラメータから自動的に得られるため、手動による調整が不要である。我々は、任意の数のカメラ視点をサポートする畳み込みのないアーキテクチャであり、最適な点セットマッチングを通して運動学的構造を予測するという単一の目的で学習されるVisual Kinematics Transformer (VKT)を提案する。我々は、Calvin、RLBench、Open-X、および実際のロボット操作タスクにおいて、一般的なエージェントとしてBC変換器よりもVKTの方が優れていることを実証する。ビデオデモはhttps://mlzxy.github.io/visual-kinetic-chain。

要約(オリジナル)

Learning general-purpose models from diverse datasets has achieved great success in machine learning. In robotics, however, existing methods in multi-task learning are typically constrained to a single robot and workspace, while recent work such as RT-X requires a non-trivial action normalization procedure to manually bridge the gap between different action spaces in diverse environments. In this paper, we propose the visual kinematics chain as a precise and universal representation of quasi-static actions for robot learning over diverse environments, which requires no manual adjustment since the visual kinematic chains can be automatically obtained from the robot’s model and camera parameters. We propose the Visual Kinematics Transformer (VKT), a convolution-free architecture that supports an arbitrary number of camera viewpoints, and that is trained with a single objective of forecasting kinematic structures through optimal point-set matching. We demonstrate the superior performance of VKT over BC transformers as a general agent on Calvin, RLBench, Open-X, and real robot manipulation tasks. Video demonstrations can be found at https://mlzxy.github.io/visual-kinetic-chain.

arxiv情報

著者 Xinyu Zhang,Yuhan Liu,Haonan Chang,Abdeslam Boularias
発行日 2024-10-02 19:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | コメントする

BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes

要約

我々は、人間の指示と視覚言語モデル(VLM)を活用した、屋外シーンにおける自律的なロボットナビゲーションのための新しいアプローチであるBehAVを発表する。本手法では、Large Language Model (LLM)を用いて人間の指示を解釈し、その指示をナビゲーションガイドラインと行動ガイドラインに分類する。ナビゲーション・ガイドラインは、方向指示(例:「前方に進む」)と関連するランドマーク(例:「青い窓のある建物」)から構成され、行動ガイドラインは、規制行動(例:「踏みとどまる」)と対応するオブジェクト(例:「舗道」)を包含する。我々は、ロボットナビゲーションのために、RGB画像からランドマーク位置を推定するために、ゼロショットのシーン理解能力を持つVLMを用いる。さらに、行動ルールを行動コストマップに基礎づけるためにVLMを利用する新しいシーン表現を導入する。このコストマップは、シーン内の行動オブジェクトの存在を符号化し、その制御動作に基づいてコストを割り当てる。行動コストマップは、ナビゲーションのためにLiDARベースの占有マップと統合される。指示された行動を守りながら屋外シーンをナビゲートするために、我々は無制約モデル予測制御(MPC)ベースのプランナーを提示し、目印に到達することと行動ガイドラインに従うことの両方を優先させる。実世界の様々なシナリオにおいて、四足歩行ロボットを用いてBehAVの性能を評価した結果、フレシェ距離で測定した人間の遠隔操作による行動との整合性が22.49%向上し、最先端の手法と比較して40%高いナビゲーション成功率を達成した。

要約(オリジナル)

We present BehAV, a novel approach for autonomous robot navigation in outdoor scenes guided by human instructions and leveraging Vision Language Models (VLMs). Our method interprets human commands using a Large Language Model (LLM) and categorizes the instructions into navigation and behavioral guidelines. Navigation guidelines consist of directional commands (e.g., ‘move forward until’) and associated landmarks (e.g., ‘the building with blue windows’), while behavioral guidelines encompass regulatory actions (e.g., ‘stay on’) and their corresponding objects (e.g., ‘pavements’). We use VLMs for their zero-shot scene understanding capabilities to estimate landmark locations from RGB images for robot navigation. Further, we introduce a novel scene representation that utilizes VLMs to ground behavioral rules into a behavioral cost map. This cost map encodes the presence of behavioral objects within the scene and assigns costs based on their regulatory actions. The behavioral cost map is integrated with a LiDAR-based occupancy map for navigation. To navigate outdoor scenes while adhering to the instructed behaviors, we present an unconstrained Model Predictive Control (MPC)-based planner that prioritizes both reaching landmarks and following behavioral guidelines. We evaluate the performance of BehAV on a quadruped robot across diverse real-world scenarios, demonstrating a 22.49% improvement in alignment with human-teleoperated actions, as measured by Frechet distance, and achieving a 40% higher navigation success rate compared to state-of-the-art methods.

arxiv情報

著者 Kasun Weerakoon,Mohamed Elnoor,Gershom Seneviratne,Vignesh Rajagopal,Senthil Hariharan Arul,Jing Liang,Mohamed Khalid M Jaffar,Dinesh Manocha
発行日 2024-10-02 19:50:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Sequential Gaussian Variational Inference for Nonlinear State Estimation applied to Robotic Applications

要約

不確実な環境を航行するロボットにとって、確率的な状態推定は不可欠である。推定された状態の不確実性を正確かつ効率的に管理することは、ロバストなロボット操作の鍵となる。しかし、ロボットプラットフォームの非線形性は、高度な推定技術を必要とする重大な課題を提起する。ガウス変分推論(GVI)は推定問題に最適化の視点を提供し、解析的に扱いやすい解とガウス空間の幾何学に由来する効率性を提供する。我々は、非線形性に対処し、効率的な逐次推論プロセスを提供する逐次ガウス変分推論(S-GVI)法を提案する。我々のアプローチは、逐次ベイズ原理をGVIフレームワークに統合し、統計的近似と情報幾何上の勾配更新を用いて対処する。シミュレーションと実世界実験による検証により、最大事後推定(MAP)法よりも状態推定が大幅に改善されることが実証された。

要約(オリジナル)

Probabilistic state estimation is essential for robots navigating uncertain environments. Accurately and efficiently managing uncertainty in estimated states is key to robust robotic operation. However, nonlinearities in robotic platforms pose significant challenges that require advanced estimation techniques. Gaussian variational inference (GVI) offers an optimization perspective on the estimation problem, providing analytically tractable solutions and efficiencies derived from the geometry of Gaussian space. We propose a Sequential Gaussian Variational Inference (S-GVI) method to address nonlinearity and provide efficient sequential inference processes. Our approach integrates sequential Bayesian principles into the GVI framework, which are addressed using statistical approximations and gradient updates on the information geometry. Validations through simulations and real-world experiments demonstrate significant improvements in state estimation over the Maximum A Posteriori (MAP) estimation method.

arxiv情報

著者 Min-Won Seo,Solmaz S. Kia
発行日 2024-10-02 20:37:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

FeelAnyForce: Estimating Contact Force Feedback from Tactile Sensation for Vision-Based Tactile Sensors

要約

本論文では、視覚ベースの触覚センサを用いた3次元接触力の推定問題に取り組む。特に、我々の目標は、異なる視覚ベースの触覚センサ間で汎化しながら、あらゆる物体の大きな範囲(最大15N)の接触力を推定することである。そのため、我々は、力センサーに取り付けられたGelSight Miniセンサーに様々な圧痕を押し付けるロボットアームを用いて200K以上の圧痕のデータセットを収集し、そのデータを用いて力回帰のためのマルチヘッド変換器を訓練した。正確なデータ収集と奥行き接触画像を活用した多目的最適化により、強力な汎化が達成された。原始的な形状とテクスチャに対してのみ学習されたにもかかわらず、この回帰器は、未見の実世界オブジェクトのデータセットにおいて、平均絶対誤差4%を達成した。さらに、他のGelSight miniやDIGITセンサーへの本アプローチの汎化能力を評価し、事前に訓練されたモデルを他の視覚ベースのセンサーに適応させるための再現可能なキャリブレーション手順を提案する。さらに、物体の重量測定や、正確な力フィードバックに依存する繊細な物体の変形制御など、実世界のタスクで本手法を評価した。プロジェクトのウェブページ: http://prg.cs.umd.edu/FeelAnyForce

要約(オリジナル)

In this paper, we tackle the problem of estimating 3D contact forces using vision-based tactile sensors. In particular, our goal is to estimate contact forces over a large range (up to 15 N) on any objects while generalizing across different vision-based tactile sensors. Thus, we collected a dataset of over 200K indentations using a robotic arm that pressed various indenters onto a GelSight Mini sensor mounted on a force sensor and then used the data to train a multi-head transformer for force regression. Strong generalization is achieved via accurate data collection and multi-objective optimization that leverages depth contact images. Despite being trained only on primitive shapes and textures, the regressor achieves a mean absolute error of 4\% on a dataset of unseen real-world objects. We further evaluate our approach’s generalization capability to other GelSight mini and DIGIT sensors, and propose a reproducible calibration procedure for adapting the pre-trained model to other vision-based sensors. Furthermore, the method was evaluated on real-world tasks, including weighing objects and controlling the deformation of delicate objects, which relies on accurate force feedback. Project webpage: http://prg.cs.umd.edu/FeelAnyForce

arxiv情報

著者 Amir-Hossein Shahidzadeh,Gabriele Caddeo,Koushik Alapati,Lorenzo Natale,Cornelia Fermüller,Yiannis Aloimonos
発行日 2024-10-02 21:28:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | コメントする

Low Fidelity Visuo-Tactile Pretraining Improves Vision-Only Manipulation Performance

要約

触覚は実世界の操作課題を解決するための重要な要素であるが、操作用の触覚センサーには壊れやすさやコストなどの使用上の障壁がある。本研究では、精密な事前較正センサに代わるものとして、堅牢で低コストの触覚センサBeadSightを操作の事前訓練に用いる。我々は、BeadSightのような低忠実度のセンサーであっても、触覚プレトレーニングが複雑な操作タスクにおける模倣学習エージェントのパフォーマンスを向上させることができることを示す。我々は、この方法を、より高精度のGelSightセンサーをプリトレーニングの触覚入力として使用した、ベースラインのUSBケーブル差込みタスクに対して実証する。我々の最高のBeadSight事前学習済み視覚触覚エージェントは70%の精度でタスクを完了したのに対し、最高のGelSight事前学習済み視覚触覚エージェントは85%の精度でタスクを完了した。

要約(オリジナル)

Tactile perception is a critical component of solving real-world manipulation tasks, but tactile sensors for manipulation have barriers to use such as fragility and cost. In this work, we engage a robust, low-cost tactile sensor, BeadSight, as an alternative to precise pre-calibrated sensors for a pretraining approach to manipulation. We show that tactile pretraining, even with a low-fidelity sensor as BeadSight, can improve an imitation learning agent’s performance on complex manipulation tasks. We demonstrate this method against a baseline USB cable plugging task, previously achieved with a much higher precision GelSight sensor as the tactile input to pretraining. Our best BeadSight pretrained visuo-tactile agent completed the task with 70\% accuracy compared to 85\% for the best GelSight pretrained visuo-tactile agent, with vision-only inference for both.

arxiv情報

著者 Selam Gano,Abraham George,Amir Barati Farimani
発行日 2024-10-02 21:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Safe Navigation in Unmapped Environments for Robotic Systems with Input Constraints

要約

本論文では、複合制御バリア関数(CBF)を用いた、入力制約と状態制約の下でのマッピングされていない環境におけるナビゲーションと制御のためのアプローチを示す。我々は、リアルタイム知覚フィードバック(例えばLiDAR)が、先験的な未マップ環境におけるローカルな状態制約(例えば障害物のようなローカルな安全制約)をモデル化するローカルなCBFを構築するためにオンラインで使用されるシナリオを考える。このアプローチは、最近得られたN個のローカルCBFから単一の時変CBFを合成するために、ソフトマキシマム関数を用いる。次に、入力制約を、制御ダイナミクスの利用により、コントローラ状態制約に変換する。次に、ソフト・ミニマム関数を用いて、入力制約を、先験的にマップされていない環境をモデル化する時変CBFと合成する。この合成により、1つの緩和されたCBFが得られ、このCBFは、状態制約と入力制約を満たす最適制御を得るための制約付き最適化で用いられる。本アプローチは、LiDARを搭載し、地図にない環境をナビゲートする非ホロノミック地上ロボットのシミュレーションにより検証される。このロボットは、先験的にマッピングされていない障害物を回避し、速度制約と入力制約の両方を満足しながら、環境をうまくナビゲートする。

要約(オリジナル)

This paper presents an approach for navigation and control in unmapped environments under input and state constraints using a composite control barrier function (CBF). We consider the scenario where real-time perception feedback (e.g., LiDAR) is used online to construct a local CBF that models local state constraints (e.g., local safety constraints such as obstacles) in the a priori unmapped environment. The approach employs a soft-maximum function to synthesize a single time-varying CBF from the N most recently obtained local CBFs. Next, the input constraints are transformed into controller-state constraints through the use of control dynamics. Then, we use a soft-minimum function to compose the input constraints with the time-varying CBF that models the a priori unmapped environment. This composition yields a single relaxed CBF, which is used in a constrained optimization to obtain an optimal control that satisfies the state and input constraints. The approach is validated through simulations of a nonholonomic ground robot that is equipped with LiDAR and navigates an unmapped environment. The robot successfully navigates the environment while avoiding the a priori unmapped obstacles and satisfying both speed and input constraints.

arxiv情報

著者 Amirsaeid Safari,Jesse B. Hoagg
発行日 2024-10-03 00:00:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Multi-Robot Relative Pose Estimation and IMU Preintegration Using Passive UWB Transceivers

要約

超広帯域(UWB)システムは、ロボット間の測距・通信手段としてますます普及している。UWBに関連する主な制約は、干渉を避けるために一度に1組のUWBトランシーバしか測距できないことであり、UWBベースの測距のスケーラビリティを妨げている。本論文では、ロボットの役割に階層的な制限を設けることなく、すべてのロボットが近隣の通信ロボットを受動的にリッスンできるレンジングプロトコルを提案する。これは、各ロボットがより多くの測距値を取得し、SE2(3)上で直接、相対的な拡張姿勢状態推定のために事前に統合された慣性計測ユニット(IMU)の測定値をブロードキャストできるようにするために利用される。その結果、オンマニホールド拡張カルマンフィルタ(EKF)を用いたクロック同期・相対姿勢同時推定器(CSRPE)が定式化され、最大7台のロボットについてモンテカルロ計算によるシミュレーションで評価された。この測距プロトコルは、3台のクアッドコプターに搭載されたカスタムメイドのUWBボード上にC言語で実装され、提案されたフィルタは、複数の実験的トライアルで評価され、最大48%のローカライゼーション精度の向上をもたらした。

要約(オリジナル)

Ultra-wideband (UWB) systems are becoming increasingly popular as a means of inter-robot ranging and communication. A major constraint associated with UWB is that only one pair of UWB transceivers can range at a time to avoid interference, hence hindering the scalability of UWB-based localization. In this paper, a ranging protocol is proposed that allows all robots to passively listen on neighbouring communicating robots without any hierarchical restrictions on the role of the robots. This is utilized to allow each robot to obtain more range measurements and to broadcast preintegrated inertial measurement unit (IMU) measurements for relative extended pose state estimation directly on SE2(3). Consequently, a simultaneous clock-synchronization and relative-pose estimator (CSRPE) is formulated using an on-manifold extended Kalman filter (EKF) and is evaluated in simulation using Monte-Carlo runs for up to 7 robots. The ranging protocol is implemented in C on custom-made UWB boards fitted to 3 quadcopters, and the proposed filter is evaluated over multiple experimental trials, yielding up to 48% improvement in localization accuracy.

arxiv情報

著者 Mohammed Ayman Shalaby,Charles Champagne Cossette,Jerome Le Ny,James Richard Forbes
発行日 2024-10-03 00:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, eess.SP | コメントする

VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving

要約

ビジョン言語モデル(VLM)の創発的な推論能力と、自律走行システムの理解可能性を向上させる可能性に動機づけられ、本稿では、モデルベース制御がVLMの意思決定をどのように強化できるかを評価するために、モデル予測制御(MPC)とVLMを組み合わせたVLM-MPCと呼ばれる閉ループ自律走行制御器を紹介する。提案するVLM-MPCは2つの非同期コンポーネントから構成される:上位層のVLMは、フロントカメラの画像、自車両の状態、交通環境の状態、および参照メモリに基づいて、下位層の制御のための走行パラメータ(例えば、希望速度、希望車間距離)を生成する。下位層のMPCは、これらのパラメータを用いてリアルタイムで車両を制御し、エンジンの遅れを考慮し、システム全体に状態フィードバックを提供する。nuScenesデータセットに基づく実験により、様々な環境(夜間、雨、交差点など)において提案するVLM-MPCの有効性を検証した。その結果、VLM-MPCは、VLMベースの制御が衝突の危険性をもたらすシナリオがあるのとは対照的に、一貫してPost Encroachment Time (PET)を安全閾値以上に維持することが実証された。さらに、VLM-MPCは、実際の軌道やVLMベースの制御と比較して、滑らかさを向上させました。異なる環境設定下での挙動を比較することで、VLM-MPCが環境を理解し、合理的な推論を行う能力があることを強調している。さらに、参照記憶と環境エンコーダの2つの主要コンポーネントが、アブレーションテストを通じて応答の安定性に寄与していることを検証する。

要約(オリジナル)

Motivated by the emergent reasoning capabilities of Vision Language Models (VLMs) and their potential to improve the comprehensibility of autonomous driving systems, this paper introduces a closed-loop autonomous driving controller called VLM-MPC, which combines the Model Predictive Controller (MPC) with VLM to evaluate how model-based control could enhance VLM decision-making. The proposed VLM-MPC is structured into two asynchronous components: The upper layer VLM generates driving parameters (e.g., desired speed, desired headway) for lower-level control based on front camera images, ego vehicle state, traffic environment conditions, and reference memory; The lower-level MPC controls the vehicle in real-time using these parameters, considering engine lag and providing state feedback to the entire system. Experiments based on the nuScenes dataset validated the effectiveness of the proposed VLM-MPC across various environments (e.g., night, rain, and intersections). The results demonstrate that the VLM-MPC consistently maintains Post Encroachment Time (PET) above safe thresholds, in contrast to some scenarios where the VLM-based control posed collision risks. Additionally, the VLM-MPC enhances smoothness compared to the real-world trajectories and VLM-based control. By comparing behaviors under different environmental settings, we highlight the VLM-MPC’s capability to understand the environment and make reasoned inferences. Moreover, we validate the contributions of two key components, the reference memory and the environment encoder, to the stability of responses through ablation tests.

arxiv情報

著者 Keke Long,Haotian Shi,Jiaxi Liu,Xiaopeng Li
発行日 2024-10-03 00:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする