L-VITeX: Light-weight Visual Intuition for Terrain Exploration

要約

この論文では、リソースに制約のあるロボットや群れ向けに設計された地形探索用の軽量視覚直観システムである L-VITeX について紹介します。
L-VITeX は、計算コストのかかる処理を行わずに、関心領域 (RoI) のヒントを提供することを目的としています。
Faster Objects, More Objects (FOMO) tinyML アーキテクチャを利用することで、システムは最小限のハードウェア リソース (ピーク時の RAM 使用量 < 50 KB) で動作しながら、ほぼリアルタイムの推論 (<200 KB) で RoI 検出の高精度 (>99%) を達成します。
MS)。
この論文では、山岳地帯、海中の難破船の残骸地域、火星の岩の表面など、さまざまな地形における L-VITeX のパフォーマンスを評価しています。
さらに、ESP32-Cam と Gaussian Splats (GS) によって実行される小型移動ロボットを使用した 3D マッピングにおけるシステムのアプリケーションを実証し、探査効率と意思決定を向上させる可能性を示しています。

要約(オリジナル)

This paper presents L-VITeX, a lightweight visual intuition system for terrain exploration designed for resource-constrained robots and swarms. L-VITeX aims to provide a hint of Regions of Interest (RoIs) without computationally expensive processing. By utilizing the Faster Objects, More Objects (FOMO) tinyML architecture, the system achieves high accuracy (>99%) in RoI detection while operating on minimal hardware resources (Peak RAM usage < 50 KB) with near real-time inference (<200 ms). The paper evaluates L-VITeX's performance across various terrains, including mountainous areas, underwater shipwreck debris regions, and Martian rocky surfaces. Additionally, it demonstrates the system's application in 3D mapping using a small mobile robot run by ESP32-Cam and Gaussian Splats (GS), showcasing its potential to enhance exploration efficiency and decision-making.

arxiv情報

著者 Antar Mazumder,Zarin Anjum Madhiha
発行日 2024-10-10 12:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Constrained Skill Discovery: Quadruped Locomotion with Unsupervised Reinforcement Learning

要約

表現学習と教師なしスキル発見により、ロボットはタスク固有の報酬を必要とせずに、多様で再利用可能な動作を獲得できるようになります。
この研究では、教師なし強化学習を使用して、距離制約を受けるスキルと状態の間の相互情報を最大化することで潜在表現を学習します。
私たちの方法は、潜在遷移の最大化をノルムマッチング目標に置き換えることにより、以前の制約付きスキル発見方法を改善します。
これにより、ベースライン手法と比較して状態空間の範囲がより豊富になるだけでなく、ロボットがより安定して制御が容易な機関車の動作を学習できるようになります。
学習したポリシーを実際の ANYmal 四足ロボットに展開することに成功し、固有のスキル発見と標準の正則化報酬のみを使用して、ロボットがゼロショット方式でデカルト状態空間の任意の点に正確に到達できることを実証しました。

要約(オリジナル)

Representation learning and unsupervised skill discovery can allow robots to acquire diverse and reusable behaviors without the need for task-specific rewards. In this work, we use unsupervised reinforcement learning to learn a latent representation by maximizing the mutual information between skills and states subject to a distance constraint. Our method improves upon prior constrained skill discovery methods by replacing the latent transition maximization with a norm-matching objective. This not only results in a much a richer state space coverage compared to baseline methods, but allows the robot to learn more stable and easily controllable locomotive behaviors. We successfully deploy the learned policy on a real ANYmal quadruped robot and demonstrate that the robot can accurately reach arbitrary points of the Cartesian state space in a zero-shot manner, using only an intrinsic skill discovery and standard regularization rewards.

arxiv情報

著者 Vassil Atanassov,Wanming Yu,Alexander Luis Mitchell,Mark Nicholas Finean,Ioannis Havoutis
発行日 2024-10-10 12:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Soothing Sensations: Enhancing Interactions with a Socially Assistive Robot through Vibrotactile Heartbeats

要約

社会支援ロボット (SAR) との物理的な相互作用は、ユーザーの幸福にプラスの影響を与えます。
しかし、SARに触れたときの触覚体験は通常、ロボットの動きやシェルの質感を知覚することに限定されており、振動触覚刺激など、ロボットによる接触体験を向上させる可能性のある他のモダリティは十分に研究されていません。
この探索的定性研究では、ストレスの多い状況下で主観的な幸福感を調節することを目的として、振動触覚の心拍を介して人間とパロロボットとの相互作用を強化する可能性を調査します。
私たちは、ホラー映画 3 クリップを単独で鑑賞した参加者 30 名と、パロ、および振動触覚の心拍を表示したパロを対象に、詳細な 1 対 1 のインタビューを実施しました。
私たちの調査結果は、パロの存在とそのインタラクティブ機能が、ストレッサーからロボットへの注意の再展開を通じてユーザーの感情を制御するのに役立つことを示しています。
振動触覚の心拍はパロの物理的および社会的存在をさらに強化し、ロボットによって提供される社会的および感情的なサポートとその知覚された生命らしさを強化しました。
ユーザーエクスペリエンスにおける個人差の影響と、SAR に対する本物のような振動触覚刺激の将来の設計への影響について説明します。

要約(オリジナル)

Physical interactions with socially assistive robots (SARs) positively affect user wellbeing. However, haptic experiences when touching a SAR are typically limited to perceiving the robot’s movements or shell texture, while other modalities that could enhance the touch experience with the robot, such as vibrotactile stimulation, are under-explored. In this exploratory qualitative study, we investigate the potential of enhancing human interaction with the PARO robot through vibrotactile heartbeats, with the goal to regulate subjective wellbeing during stressful situations. We conducted in-depth one-on-one interviews with 30 participants, who watched three horror movie clips alone, with PARO, and with a PARO that displayed a vibrotactile heartbeat. Our findings show that PARO’s presence and its interactive capabilities can help users regulate emotions through attentional redeployment from a stressor toward the robot. The vibrotactile heartbeat further reinforced PARO’s physical and social presence, enhancing the socio-emotional support provided by the robot and its perceived life-likeness. We discuss the impact of individual differences in user experience and implications for the future design of life-like vibrotactile stimulation for SARs.

arxiv情報

著者 Jacqueline Borgstedt,Shaun Macdonald,Karola Marky,Frank E. Pollick,Stephen A. Brewster
発行日 2024-10-10 13:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

Safe Task Planning for Language-Instructed Multi-Robot Systems using Conformal Prediction

要約

この論文では、言語教育を受けたロボット チームのタスク計画の問題について取り上げます。
タスクは自然言語 (NL) で表現され、ロボットがさまざまな場所やセマンティック オブジェクトでその機能を適用する必要があります。
最近のいくつかの研究では、事前トレーニングされた大規模言語モデル (LLM) を活用して効果的なマルチロボット計画を設計することで、同様の計画の問題に対処しています。
ただし、これらのアプローチにはミッション完了の保証がありません。
この課題に対処するために、言語で指示されたエージェントのチームのための安全な計画のための S-ATLAS と呼ばれる、ユーザー定義のミッション成功率を達成できる新しい分散型 LLM ベースのプランナーを導入します。
これは、ブラックボックス モデルにおける分布フリーの不確実性定量化ツールである等角予測 (CP) を活用することで実現されます。
CP を使用すると、提案されているマルチロボット プランナーが分散方式で固有の不確実性について推論できるようになり、ロボットが十分に確実な場合には個別の決定を下し、そうでない場合は助けを求めることができます。
提案されたプランナーは、ヘルプ リクエストの総数を最小限に抑えながら、ユーザーが指定したタスクの成功率を達成できることを、理論的にも経験的にも示します。
私たちは、関連する研究との比較実験を提供し、私たちの方法が計算効率が大幅に高く、ヘルプ率が低いことを示しています。
ベースラインに対するアルゴリズムの利点は、ロボット チームの規模が大きくなるにつれてより顕著になります。

要約(オリジナル)

This paper addresses task planning problems for language-instructed robot teams. Tasks are expressed in natural language (NL), requiring the robots to apply their capabilities at various locations and semantic objects. Several recent works have addressed similar planning problems by leveraging pre-trained Large Language Models (LLMs) to design effective multi-robot plans. However, these approaches lack mission completion guarantees. To address this challenge, we introduce a new distributed LLM-based planner, called S-ATLAS for Safe plAnning for Teams of Language-instructed AgentS, that is capable of achieving user-defined mission success rates. This is accomplished by leveraging conformal prediction (CP), a distribution-free uncertainty quantification tool in black-box models. CP allows the proposed multi-robot planner to reason about its inherent uncertainty in a distributed fashion, enabling robots to make individual decisions when they are sufficiently certain and seek help otherwise. We show, both theoretically and empirically, that the proposed planner can achieve user-specified task success rates while minimizing the overall number of help requests. We provide comparative experiments against related works showing that our method is significantly more computational efficient and achieves lower help rates. The advantage of our algorithm over baselines becomes more pronounced with increasing robot team size.

arxiv情報

著者 Jun Wang,Guocheng He,Yiannis Kantaros
発行日 2024-10-10 13:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network

要約

人間のアクティビティの認識は、知能ロボットにとって重要なタスクです。特に人間とロボットのコラボレーションの分野では、サブアクティビティのラベルだけでなく、アクティビティの時間構造も必要となります。
人間とオブジェクトの相互作用のシーケンスにおけるラベルと時間構造の両方を自動的に認識するために、我々は新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案します。これは、注意ベースのグラフ畳み込みネットワークと、
時間軸上のインタラクションシーケンスをそれぞれダウンサンプリングおよびアップサンプリングするための時間ピラミッドプーリングモジュール。
映像データの検出結果から、人物と物体の2次元または3次元の空間関係をグラフとして表現するシステムです。
人間と物体の関係を学習するために、新しいアテンション グラフ畳み込みネットワークがトレーニングされ、グラフ表現から凝縮された情報が抽出されます。
アクションをサブアクションに分割するために、圧縮された特徴を元の時間スケールにアップサンプリングしてアクションをフレームごとに分類する、新しい時間ピラミッド プーリング モジュールが提案されています。
私たちは、空間的注意、時間的注意、チャネル的注意といったさまざまな注意層を調査し、さまざまなアップサンプリング デコーダを組み合わせて、アクション認識とセグメンテーションのパフォーマンスをテストします。
私たちは、人間と物体のインタラクション認識の分野における 2 つの困難なデータセット、つまり両手操作データセットと IKEA アセンブリ データセットに基づいてモデルを評価します。
私たちの分類器がフレーム単位のアクション認識とセグメンテーションの両方を大幅に向上させることを実証します。たとえば、Bimanual Actions データセットの F1 マイクロ スコアと F1@50 スコアは、それぞれ $4.3\%$ と $8.5\%$ 改善されました。

要約(オリジナル)

Human activities recognition is an important task for an intelligent robot, especially in the field of human-robot collaboration, it requires not only the label of sub-activities but also the temporal structure of the activity. In order to automatically recognize both the label and the temporal structure in sequence of human-object interaction, we propose a novel Pyramid Graph Convolutional Network (PGCN), which employs a pyramidal encoder-decoder architecture consisting of an attention based graph convolution network and a temporal pyramid pooling module for downsampling and upsampling interaction sequence on the temporal axis, respectively. The system represents the 2D or 3D spatial relation of human and objects from the detection results in video data as a graph. To learn the human-object relations, a new attention graph convolutional network is trained to extract condensed information from the graph representation. To segment action into sub-actions, a novel temporal pyramid pooling module is proposed, which upsamples compressed features back to the original time scale and classifies actions per frame. We explore various attention layers, namely spatial attention, temporal attention and channel attention, and combine different upsampling decoders to test the performance on action recognition and segmentation. We evaluate our model on two challenging datasets in the field of human-object interaction recognition, i.e. Bimanual Actions and IKEA Assembly datasets. We demonstrate that our classifier significantly improves both framewise action recognition and segmentation, e.g., F1 micro and F1@50 scores on Bimanual Actions dataset are improved by $4.3\%$ and $8.5\%$ respectively.

arxiv情報

著者 Hao Xing,Darius Burschka
発行日 2024-10-10 13:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Understanding Human Activity with Uncertainty Measure for Novelty in Graph Convolutional Networks

要約

人間の活動を理解することは、特に人間とロボットのコラボレーションの分野において、インテリジェント ロボットの開発において重要な側面です。
それにもかかわらず、既存のシステムは、デコーダのアップサンプリング プロセスでのエラーが原因で、オーバーセグメンテーションなどの課題に直面しています。
これに応えて、私たちは、Temporal Fusion Graph Convolutional Network という有望なソリューションを紹介します。
この革新的なアプローチは、アクティビティ ストリーム内の個々のアクションの不適切な境界推定を修正し、時間的次元での過剰セグメント化の問題を軽減することを目的としています。
さらに、意思決定に人間の活動認識フレームワークを利用するシステムでは、単なる行動の識別以上のものが必要になります。
観察とトレーニング例の間の対応関係に関する確実性を示す信頼値が必要です。
これは、トレーニング データの一部ではなく、システム内の類似性の尺度が弱いために不一致が生じる可能性がある予期せぬシナリオに対する自信過剰な応答を防ぐために非常に重要です。
これに対処するために、観測における新規性の効率的な推定を強化することを目的としたスペクトル正規化残差接続の組み込みを提案します。
この革新的なアプローチでは、重み更新の最大勾配に制約を課すことにより、特徴空間内の入力距離が確実に保存されます。
これらの勾配を制限することで、新しい状況へのより確実な対処を促進し、それによって自信過剰に関連するリスクを軽減します。
私たちの方法論には、特徴空間内の距離を定量化するためのガウス プロセスの使用が含まれます。

要約(オリジナル)

Understanding human activity is a crucial aspect of developing intelligent robots, particularly in the domain of human-robot collaboration. Nevertheless, existing systems encounter challenges such as over-segmentation, attributed to errors in the up-sampling process of the decoder. In response, we introduce a promising solution: the Temporal Fusion Graph Convolutional Network. This innovative approach aims to rectify the inadequate boundary estimation of individual actions within an activity stream and mitigate the issue of over-segmentation in the temporal dimension. Moreover, systems leveraging human activity recognition frameworks for decision-making necessitate more than just the identification of actions. They require a confidence value indicative of the certainty regarding the correspondence between observations and training examples. This is crucial to prevent overly confident responses to unforeseen scenarios that were not part of the training data and may have resulted in mismatches due to weak similarity measures within the system. To address this, we propose the incorporation of a Spectral Normalized Residual connection aimed at enhancing efficient estimation of novelty in observations. This innovative approach ensures the preservation of input distance within the feature space by imposing constraints on the maximum gradients of weight updates. By limiting these gradients, we promote a more robust handling of novel situations, thereby mitigating the risks associated with overconfidence. Our methodology involves the use of a Gaussian process to quantify the distance in feature space.

arxiv情報

著者 Hao Xing,Darius Burschka
発行日 2024-10-10 13:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Multimodal Perception System for Real Open Environment

要約

この論文では、実際のオープン環境向けの新しいマルチモーダル知覚システムを紹介します。
提案されたシステムには、組み込み計算プラットフォーム、カメラ、超音波センサー、GPS、および IMU デバイスが含まれています。
従来のフレームワークとは異なり、当社のシステムは複数のセンサーと高度なコンピューター ビジョン アルゴリズムを統合し、ユーザーが確実に屋外を歩くことを支援します。
このシステムは、特定の場所へのナビゲーション、障害物領域の通過、交差点の横断など、さまざまなタスクを効率的に実行できます。
具体的には、超音波センサーや深度カメラも活用し、障害物回避性能を高めています。
経路計画モジュールは、さまざまなフィードバックとユーザーの現在の状態に基づいて、局所的に最適なルートを見つけるように設計されています。
提案されたシステムのパフォーマンスを評価するために、さまざまなシナリオの下でいくつかの実験を設計します。
結果は、このシステムがユーザーが複雑な状況でも効率的かつ自立して歩くのに役立つことを示しています。

要約(オリジナル)

This paper presents a novel multimodal perception system for a real open environment. The proposed system includes an embedded computation platform, cameras, ultrasonic sensors, GPS, and IMU devices. Unlike the traditional frameworks, our system integrates multiple sensors with advanced computer vision algorithms to help users walk outside reliably. The system can efficiently complete various tasks, including navigating to specific locations, passing through obstacle regions, and crossing intersections. Specifically, we also use ultrasonic sensors and depth cameras to enhance obstacle avoidance performance. The path planning module is designed to find the locally optimal route based on various feedback and the user’s current state. To evaluate the performance of the proposed system, we design several experiments under different scenarios. The results show that the system can help users walk efficiently and independently in complex situations.

arxiv情報

著者 Yuyang Sha
発行日 2024-10-10 13:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Fron CAD to URDF: Co-Design of a Jet-Powered Humanoid Robot Including CAD Geometry

要約

共同設計の最適化戦略は通常、CAD から抽出された単純化されたロボット モデルに依存します。
これらのモデルは、ロボット制御の幾何学的パラメーターと慣性パラメーターを最適化するのに役立ちますが、最適化された機械設計のプロトタイピングに不可欠な重要な詳細を見落とす可能性があります。
たとえば、最適化された形状やアセンブリレベルの設計の複雑さにかかる機械的応力を考慮していない可能性があります。
この論文では、ロボットの制御性能と機械設計の両方を向上させることを目的とした共同設計フレームワークを紹介します。
具体的には、制御性能に大きな影響を与えるロボットリンクを特定します。
これらのリンクの幾何学的特性は、多目的進化アルゴリズムを使用してパラメータ化および最適化され、最適な制御パフォーマンスを実現します。
さらに、自動化された有限要素法 (FEM) 解析がフレームワークに統合されており、必要な構造的安全マージンを満たさないソリューションをフィルタリングします。
ジェット動力の人型ロボット iRonCub の飛行性能のための機械設計を強化するためにフレームワークを適用することで、フレームワークを検証します。

要約(オリジナル)

Co-design optimization strategies usually rely on simplified robot models extracted from CAD. While these models are useful for optimizing geometrical and inertial parameters for robot control, they might overlook important details essential for prototyping the optimized mechanical design. For instance, they may not account for mechanical stresses exerted on the optimized geometries and the complexity of assembly-level design. In this paper, we introduce a co-design framework aimed at improving both the control performance and mechanical design of our robot. Specifically, we identify the robot links that significantly influence control performance. The geometric characteristics of these links are parameterized and optimized using a multi-objective evolutionary algorithm to achieve optimal control performance. Additionally, an automated Finite Element Method (FEM) analysis is integrated into the framework to filter solutions not satisfying the required structural safety margin. We validate the framework by applying it to enhance the mechanical design for flight performance of the jet-powered humanoid robot iRonCub.

arxiv情報

著者 Punith Reddy Vanteddu,Gabriele Nava,Fabio Bergonti,Giuseppe L’Erario,Antonello Paolino,Daniele PUcci
発行日 2024-10-10 14:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

DragTraffic: Interactive and Controllable Traffic Scene Generation for Autonomous Driving

要約

自動運転システムの評価とトレーニングには、多様でスケーラブルなコーナーケースが必要です。
しかし、既存のシーン生成方法のほとんどは制御性、精度、汎用性に欠けており、満足のいく生成結果が得られません。
画像生成における DragGAN からインスピレーションを得て、条件付き拡散に基づいた一般化されたインタラクティブで制御可能な交通シーン生成フレームワークである DragTraffic を提案します。
DragTraffic を使用すると、専門家でなくても、適応混合エキスパート アーキテクチャを通じて、さまざまな種類の交通エージェントに対してさまざまな現実的な運転シナリオを生成できます。
回帰モデルを使用して一般的な初期解を提供し、条件付き拡散モデルに基づいて改良プロセスを提供して多様性を確保します。
ユーザーがカスタマイズしたコンテキストはクロスアテンションを通じて導入され、高い制御性を確保します。
現実世界の運転データセットでの実験では、信頼性、多様性、自由度の点で DragTraffic が既存の方法よりも優れていることが示されています。
デモビデオとコードは https://chantsss.github.io/Dragtraffic/ で入手できます。

要約(オリジナル)

Evaluating and training autonomous driving systems require diverse and scalable corner cases. However, most existing scene generation methods lack controllability, accuracy, and versatility, resulting in unsatisfactory generation results. Inspired by DragGAN in image generation, we propose DragTraffic, a generalized, interactive, and controllable traffic scene generation framework based on conditional diffusion. DragTraffic enables non-experts to generate a variety of realistic driving scenarios for different types of traffic agents through an adaptive mixture expert architecture. We employ a regression model to provide a general initial solution and a refinement process based on the conditional diffusion model to ensure diversity. User-customized context is introduced through cross-attention to ensure high controllability. Experiments on a real-world driving dataset show that DragTraffic outperforms existing methods in terms of authenticity, diversity, and freedom. Demo videos and code are available at https://chantsss.github.io/Dragtraffic/.

arxiv情報

著者 Sheng Wang,Ge Sun,Fulong Ma,Tianshuai Hu,Qiang Qin,Yongkang Song,Lei Zhu,Junwei Liang
発行日 2024-10-10 14:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

要約

多様で動的な環境で動作する汎用性の高いロボット システムに対する需要が高まっているため、大規模な実施形態にまたがるデータ コーパスを活用して広範な適応性と高度な推論を促進するジェネラリスト ポリシーの重要性が強調されています。
ただし、ジェネラリストは非効率な推論とコストのかかるトレーニングに苦労するでしょう。
代わりに、スペシャリスト ポリシーは特定のドメイン データ用に厳選されており、タスク レベルの精度と効率性に優れています。
しかし、広範囲のアプリケーションに対する一般化能力が欠けています。
これらの観察に触発されて、ジェネラリスト ポリシーとスペシャリスト ポリシーの両方のメリットを補完する相乗効果のあるデュアル システムである RoboDual を紹介します。
拡散トランスフォーマーベースのスペシャリストは、ビジョン言語アクション (VLA) ベースのジェネラリストの高レベルのタスク理解と離散化されたアクション出力を絶妙に条件付けた、複数ステップのアクションのロールアウト用に考案されています。
OpenVLA と比較して、RoboDual は、トレーニング可能なパラメーターがわずか 2,000 万個の専門ポリシーを導入することにより、現実世界の設定で 26.7% の改善と、CALVIN で 12% の向上を達成しました。
5% のデモンストレーション データのみで強力なパフォーマンスを維持し、実際の展開では 3.8 倍高い制御頻度を可能にします。
コードは公開される予定です。
私たちのプロジェクト ページは https://opendrivelab.com/RoboDual/ でホストされています。

要約(オリジナル)

The increasing demand for versatile robotic systems to operate in diverse and dynamic environments has emphasized the importance of a generalist policy, which leverages a large cross-embodiment data corpus to facilitate broad adaptability and high-level reasoning. However, the generalist would struggle with inefficient inference and cost-expensive training. The specialist policy, instead, is curated for specific domain data and excels at task-level precision with efficiency. Yet, it lacks the generalization capacity for a wide range of applications. Inspired by these observations, we introduce RoboDual, a synergistic dual-system that supplements the merits of both generalist and specialist policy. A diffusion transformer-based specialist is devised for multi-step action rollouts, exquisitely conditioned on the high-level task understanding and discretized action output of a vision-language-action (VLA) based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in real-world setting and 12% gain on CALVIN by introducing a specialist policy with merely 20M trainable parameters. It maintains strong performance with 5% of demonstration data only, and enables a 3.8 times higher control frequency in real-world deployment. Code would be made publicly available. Our project page is hosted at: https://opendrivelab.com/RoboDual/

arxiv情報

著者 Qingwen Bu,Hongyang Li,Li Chen,Jisong Cai,Jia Zeng,Heming Cui,Maoqing Yao,Yu Qiao
発行日 2024-10-10 14:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする