PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning

要約

3Dポイントクラウドモデリングと将来の認識の好みの改良を統合することにより、2Dベースの嗜好ベースの強化学習(PBRL)の制限を克服するために設計された新しいフレームワークであるPrismを提案します。
そのコアでは、Prismは3Dポイントクラウド言語モデル(3D-PC-LLM)を採用して、閉塞と視点のバイアスを緩和し、より安定した空間的に一貫した優先権信号を確保します。
さらに、Prismは、長期の考慮事項を組み込むためにチェーンオブ考え(COT)を活用して、静的な好みの比較でよく見られる近視眼的フィードバックを防ぎます。
従来のPBRL手法とは対照的に、この3D認識と将来指向の推論のこの統合は、目に見えないロボット環境全体で優先契約率、より速い政策収束、堅牢な一般化の大幅な利益につながります。
ロボット操作や自律ナビゲーションなどのタスクにまたがる実証結果は、正確な空間的理解と信頼できる長期的な意思決定が重要な現実世界のアプリケーションのプリズムの可能性を強調しています。
COT駆動型の好みのモデリングで3D幾何学的認識を橋渡しすることにより、Prismは、スケーラブルで人間に整合した強化学習の包括的な基盤を確立します。

要約(オリジナル)

We propose PRISM, a novel framework designed to overcome the limitations of 2D-based Preference-Based Reinforcement Learning (PBRL) by unifying 3D point cloud modeling and future-aware preference refinement. At its core, PRISM adopts a 3D Point Cloud-Language Model (3D-PC-LLM) to mitigate occlusion and viewpoint biases, ensuring more stable and spatially consistent preference signals. Additionally, PRISM leverages Chain-of-Thought (CoT) reasoning to incorporate long-horizon considerations, thereby preventing the short-sighted feedback often seen in static preference comparisons. In contrast to conventional PBRL techniques, this integration of 3D perception and future-oriented reasoning leads to significant gains in preference agreement rates, faster policy convergence, and robust generalization across unseen robotic environments. Our empirical results, spanning tasks such as robotic manipulation and autonomous navigation, highlight PRISM’s potential for real-world applications where precise spatial understanding and reliable long-term decision-making are critical. By bridging 3D geometric awareness with CoT-driven preference modeling, PRISM establishes a comprehensive foundation for scalable, human-aligned reinforcement learning.

arxiv情報

著者 Yirong Sun,Yanjun Chen
発行日 2025-03-19 06:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning はコメントを受け付けていません

ES-Parkour: Advanced Robot Parkour with Bio-inspired Event Camera and Spiking Neural Network

要約

近年、四足動力装置は、特に強化学習を通じて知覚とモーション制御において大幅に進歩し、挑戦的な環境で複雑な動きを可能にしています。
深さカメラのような視覚センサーは、安定性と堅牢性を高めますが、関節制御と比較して低い動作周波数や照明に対する感受性など、屋外の展開を妨げるなど、顔の制限を向上させます。
さらに、センサーおよび制御システムの深いニューラルネットワークは、計算需要を増加させます。
これらの問題に対処するために、スパイクニューラルネットワーク(SNNS)とイベントカメラを導入して、挑戦的な四足動物タスクを実行します。
イベントカメラは動的な視覚データをキャプチャしますが、SNNはスパイクシーケンスを効率的に処理し、生物学的知覚を模倣します。
実験結果は、このアプローチが従来のモデルを大幅に上回り、人工ニューラルネットワーク(ANN)ベースのモデルのエネルギー消費量のわずか11.7%で優れたパルクール性能を達成し、88.3%のエネルギー削減をもたらすことを示しています。
イベントカメラをSNNと統合することにより、私たちの作業はロボット強化学習を進め、要求の厳しい環境でアプリケーションの新しい可能性を開きます。

要約(オリジナル)

In recent years, quadruped robotics has advanced significantly, particularly in perception and motion control via reinforcement learning, enabling complex motions in challenging environments. Visual sensors like depth cameras enhance stability and robustness but face limitations, such as low operating frequencies relative to joint control and sensitivity to lighting, which hinder outdoor deployment. Additionally, deep neural networks in sensor and control systems increase computational demands. To address these issues, we introduce spiking neural networks (SNNs) and event cameras to perform a challenging quadruped parkour task. Event cameras capture dynamic visual data, while SNNs efficiently process spike sequences, mimicking biological perception. Experimental results demonstrate that this approach significantly outperforms traditional models, achieving excellent parkour performance with just 11.7% of the energy consumption of an artificial neural network (ANN)-based model, yielding an 88.3% energy reduction. By integrating event cameras with SNNs, our work advances robotic reinforcement learning and opens new possibilities for applications in demanding environments.

arxiv情報

著者 Qiang Zhang,Jiahang Cao,Jingkai Sun,Yecheng Shao,Gang Han,Wen Zhao,Yijie Guo,Renjing Xu
発行日 2025-03-19 06:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ES-Parkour: Advanced Robot Parkour with Bio-inspired Event Camera and Spiking Neural Network はコメントを受け付けていません

Advancing a taxonomy for proxemics in robot social navigation

要約

人間の環境にロボットを展開するには、効果的なソーシャルロボットナビゲーションが必要です。
この記事では、プロキサミクスに焦点を当て、新しい分類法を提案し、最先端の研究の分析と研究ギャップの特定を通じて将来の方向性を提案します。
人間とロボットの相互作用におけるプロキセミクスパターンの動的特性に影響を与えるさまざまな要因が徹底的に調査されています。
コヒーレントプロキセミクスフレームワークを確立するために、プロキセミクスの動作を形成する重要なパラメーターと属性を特定して整理しました。
このフレームワークに基づいて、ロボットナビゲーションでプロキセミクスを定義するための新しいアプローチを紹介し、その構造とサイズに影響を与える重要な属性を強調します。
これは、将来の研究開発を導くための基盤として機能する新しい分類法の開発につながります。
私たちの調査結果は、個人的な距離を定義する複雑さを強調し、それを複雑で多次元的な課題として明らかにしています。
さらに、個人ゾーンの境界の柔軟で動的な性質を強調します。これは、さまざまなコンテキストや状況に適応できるはずです。
さらに、ソーシャルロボットのナビゲーションにプロキシミクスを実装するための新しいレイヤーを提案します。

要約(オリジナル)

Deploying robots in human environments requires effective social robot navigation. This article focuses on proxemics, proposing a new taxonomy and suggesting future directions through an analysis of state-of-the-art studies and the identification of research gaps. The various factors that affect the dynamic properties of proxemics patterns in human-robot interaction are thoroughly explored. To establish a coherent proxemics framework, we identified and organized the key parameters and attributes that shape proxemics behavior. Building on this framework, we introduce a novel approach to define proxemics in robot navigation, emphasizing the significant attributes that influence its structure and size. This leads to the development of a new taxonomy that serves as a foundation for guiding future research and development. Our findings underscore the complexity of defining personal distance, revealing it as a complex, multi-dimensional challenge. Furthermore, we highlight the flexible and dynamic nature of personal zone boundaries, which should be adaptable to different contexts and circumstances. Additionally, we propose a new layer for implementing proxemics in the navigation of social robots.

arxiv情報

著者 Ehud Nahum,Yael Edan,Tal Oron-Gilad
発行日 2025-03-19 06:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Advancing a taxonomy for proxemics in robot social navigation はコメントを受け付けていません

Incremental Learning for Robot Shared Autonomy

要約

共有された自律性は、支援ロボットアームの使いやすさとアクセシビリティを改善することを約束しますが、現在の方法はしばしば高価な専門家のデモンストレーションに依存しており、展開後に適応する能力を欠いています。
このペーパーでは、ILSAを紹介します。ILSAは、繰り返されるユーザーインタラクションを通じて支援制御ポリシーを継続的に改善する段階的に学習された共有された自律フレームワークです。
ILSAは、初期の事前トレーニングのための合成運動学的軌跡を活用し、専門家のデモンストレーションの必要性を減らし、各操作の相互作用の後にポリシーを段階的に獲得し、漸進的な学習中の既存の知識維持とのバランスをとるメカニズムを備えています。
包括的なアブレーション研究と20人の参加者を対象としたユーザー研究を通じて、複雑な長老タスクのILSAを検証し、定量的パフォーマンスとユーザー報告された定性的メトリックの両方においてその有効性と堅牢性を示しています。
コードとビデオはhttps://ilsa-robo.github.io/で入手できます。

要約(オリジナル)

Shared autonomy holds promise for improving the usability and accessibility of assistive robotic arms, but current methods often rely on costly expert demonstrations and lack the ability to adapt post-deployment. This paper introduces ILSA, an Incrementally Learned Shared Autonomy framework that continually improves its assistive control policy through repeated user interactions. ILSA leverages synthetic kinematic trajectories for initial pretraining, reducing the need for expert demonstrations, and then incrementally finetunes its policy after each manipulation interaction, with mechanisms to balance new knowledge acquisition with existing knowledge retention during incremental learning. We validate ILSA for complex long-horizon tasks through a comprehensive ablation study and a user study with 20 participants, demonstrating its effectiveness and robustness in both quantitative performance and user-reported qualitative metrics. Code and videos are available at https://ilsa-robo.github.io/.

arxiv情報

著者 Yiran Tao,Guixiu Qiao,Dan Ding,Zackory Erickson
発行日 2025-03-19 08:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Incremental Learning for Robot Shared Autonomy はコメントを受け付けていません

Interaction of Autonomous and Manually Controlled Vehicles Multiscenario Vehicle Interaction Dataset

要約

高品質のセンサーデータの獲得と分析は、完全自律駆動システムの開発を形成する上で重要な要件を構成します。
このプロセスは、交通安全を高め、自動車産業における技術的進歩の有効性を確保するために不可欠です。
この研究では、自律型および手動で制御された車両(IAMCV)データセットの相互作用を紹介します。これは、車両間の相互作用に焦点を当てた新規かつ広範なデータセットです。
データセットは、光検出と範囲、カメラ、慣性測定単位/グローバルポジショニングシステム、車両バスデータ収集などの洗練されたセンサーの洗練された配列で濃縮されており、ラウンドアバウト、交差点、田舎道、および高速道路を含む現実世界の運転シナリオを包括的に表現しています。
さらに、この研究では、いくつかの概念実証ユースケースを通じてIAMCVデータセットの汎用性が示されています。
第一に、監視されていない軌跡クラスタリングアルゴリズムは、ラベル付きトレーニングデータを必要とせずに車両の動きを分類するデータセットの機能を示しています。
第二に、データセットでキャプチャされた画像を使用して、オンラインカメラのキャリブレーション方法をロボットオペレーティングシステムベースの標準と比較します。
最後に、Yolov8オブジェクト検出モデルを使用した予備テストが行​​われ、さまざまなLIDAR解像度にわたるオブジェクト検出の転送可能性に関する反射によって増強されます。
これらのユースケースは、収集されたデータセットの実用的なユーティリティを強調し、インテリジェント車の分野での研究と革新を促進する可能性を強調しています。

要約(オリジナル)

The acquisition and analysis of high-quality sensor data constitute an essential requirement in shaping the development of fully autonomous driving systems. This process is indispensable for enhancing road safety and ensuring the effectiveness of the technological advancements in the automotive industry. This study introduces the Interaction of Autonomous and Manually-Controlled Vehicles (IAMCV) dataset, a novel and extensive dataset focused on inter-vehicle interactions. The dataset, enriched with a sophisticated array of sensors such as Light Detection and Ranging, cameras, Inertial Measurement Unit/Global Positioning System, and vehicle bus data acquisition, provides a comprehensive representation of real-world driving scenarios that include roundabouts, intersections, country roads, and highways, recorded across diverse locations in Germany. Furthermore, the study shows the versatility of the IAMCV dataset through several proof-of-concept use cases. Firstly, an unsupervised trajectory clustering algorithm illustrates the dataset’s capability in categorizing vehicle movements without the need for labeled training data. Secondly, we compare an online camera calibration method with the Robot Operating System-based standard, using images captured in the dataset. Finally, a preliminary test employing the YOLOv8 object-detection model is conducted, augmented by reflections on the transferability of object detection across various LIDAR resolutions. These use cases underscore the practical utility of the collected dataset, emphasizing its potential to advance research and innovation in the area of intelligent vehicles.

arxiv情報

著者 Novel Certad,Enrico del Re,Helena Korndörfer,Gregory Schröder,Walter Morales-Alvarez,Sebastian Tschernuth,Delgermaa Gankhuyag,Luigi del Re,Cristina Olaverri-Monreal
発行日 2025-03-19 08:30:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.RO | Interaction of Autonomous and Manually Controlled Vehicles Multiscenario Vehicle Interaction Dataset はコメントを受け付けていません

ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

要約

明確なオブジェクトを構築することは、コンピュータービジョンの重要な課題です。
既存の方法は、異なるオブジェクト状態にわたって情報を効果的に統合することができず、特に複雑なマルチパートの明確なオブジェクトのパートメッシュ再構成とパートダイナミクスモデリングの精度を制限します。
ARTGSを紹介します。これは、これらの問題に対処するための柔軟で効率的な表現として3Dガウスを活用する斬新なアプローチです。
私たちの方法には、異なるオブジェクト状態にわたって明確なパーツ情報を調整するための粗から洗練された初期化と更新を備えた標準ガウス人を組み込み、スキニングにインスパイアされたパーツダイナミクスモデリングモジュールを採用して、パートメッシュの再構成と明確化学習の両方を改善します。
複雑なマルチパートオブジェクトの新しいベンチマークを含む合成データセットと現実世界の両方のデータセットでの広範な実験は、ARTGSがジョイントパラメーター推定と部分メッシュ再構成で最新のパフォーマンスを達成することを示しています。
私たちのアプローチは、特にマルチパートの明確なオブジェクトの再構築品質と効率を大幅に改善します。
さらに、設計の選択の包括的な分析を提供し、各コンポーネントの有効性を検証して、将来の改善のための潜在的な領域を強調します。
私たちの作品は、https://articulate-gs.github.ioで公開されています。

要約(オリジナル)

Building articulated objects is a key challenge in computer vision. Existing methods often fail to effectively integrate information across different object states, limiting the accuracy of part-mesh reconstruction and part dynamics modeling, particularly for complex multi-part articulated objects. We introduce ArtGS, a novel approach that leverages 3D Gaussians as a flexible and efficient representation to address these issues. Our method incorporates canonical Gaussians with coarse-to-fine initialization and updates for aligning articulated part information across different object states, and employs a skinning-inspired part dynamics modeling module to improve both part-mesh reconstruction and articulation learning. Extensive experiments on both synthetic and real-world datasets, including a new benchmark for complex multi-part objects, demonstrate that ArtGS achieves state-of-the-art performance in joint parameter estimation and part mesh reconstruction. Our approach significantly improves reconstruction quality and efficiency, especially for multi-part articulated objects. Additionally, we provide comprehensive analyses of our design choices, validating the effectiveness of each component to highlight potential areas for future improvement. Our work is made publicly available at: https://articulate-gs.github.io.

arxiv情報

著者 Yu Liu,Baoxiong Jia,Ruijie Lu,Junfeng Ni,Song-Chun Zhu,Siyuan Huang
発行日 2025-03-19 08:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.LG, cs.RO | ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting はコメントを受け付けていません

Modeling, Embedded Control and Design of Soft Robots using a Learned Condensed FEM Model

要約

有限要素法(FEM)は、ソフトロボットの動作を予測するための強力なモデリングツールですが、その計算時間は実用的なアプリケーションを制限できます。
この論文では、FEMモデルの凝縮に基づいた学習ベースのアプローチが詳細です。
提案された方法は、いくつかの種類のアクチュエーターと環境との接触を処理します。
このコンパクトモデルは、いくつかの設計で統一されたモデルとして学習できることを実証し、ロボットの直接的および逆運動学を推測できるため、モデリングの点で非常に効率的なままであることを実証します。
[11]で導入された直観に基づいて、学習モデルは、ソフトマニピュレーターのモデリング、制御、設計のための一般的なフレームワークとして提示されます。
まず、メソッドの適応性と汎用性は、機械的接触ベースの結合を備えた位置付けと操作タスクを含む最適化ベースの制御問題を通じて示されています。
第二に、学習した凝縮モデルの低いメモリ消費と高い予測速度は、費用のかかるオンラインFEMシミュレーションに依存せずにリアルタイムの埋め込み制御のために活用されます。
最後に、ソフトロボットの設計のバリエーションをキャプチャする学習された凝縮FEMモデルの能力とその分化性は、キャリブレーションおよび設計最適化アプリケーションで活用されています。

要約(オリジナル)

The Finite Element Method (FEM) is a powerful modeling tool for predicting soft robots’ behavior, but its computation time can limit practical applications. In this paper, a learning-based approach based on condensation of the FEM model is detailed. The proposed method handles several kinds of actuators and contacts with the environment. We demonstrate that this compact model can be learned as a unified model across several designs and remains very efficient in terms of modeling since we can deduce the direct and inverse kinematics of the robot. Building upon the intuition introduced in [11], the learned model is presented as a general framework for modeling, controlling, and designing soft manipulators. First, the method’s adaptability and versatility are illustrated through optimization based control problems involving positioning and manipulation tasks with mechanical contact-based coupling. Secondly, the low memory consumption and the high prediction speed of the learned condensed model are leveraged for real-time embedding control without relying on costly online FEM simulation. Finally, the ability of the learned condensed FEM model to capture soft robot design variations and its differentiability are leveraged in calibration and design optimization applications.

arxiv情報

著者 Etienne Ménager,Tanguy Navez,Paul Chaillou,Olivier Goury,Alexandre Kruszewski,Christian Duriez
発行日 2025-03-19 08:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Modeling, Embedded Control and Design of Soft Robots using a Learned Condensed FEM Model はコメントを受け付けていません

High-Order Control Barrier Functions: Insights and a Truncated Taylor-Based Formulation

要約

標準の高次制御バリア関数(HOCBF)アプローチの複雑さを調べ、設計パラメーターを減らす切り捨てられたテイラーベースのアプローチを提案します。
まず、HOCBFアプローチの明示的な不平等条件を導き出し、対応する等式条件が減衰率を調節するバリア関数値の下限を設定することを示します。
次に、切り捨てられたテイラーシリーズを使用して離散時間CBF条件を近似する切り捨てられたテイラーCBF(TTCBF)を提示します。
標準のHOCBFアプローチでは、複数のクラスK関数が必要であり、制約の相対程度が増加するにつれて設計パラメーターが増えますが、TTCBFアプローチでは1つだけが必要です。
数値衝突回避実験での理論的発見をサポートし、デザインの複雑さを軽減しながら安全性を確保することを示しています。

要約(オリジナル)

We examine the complexity of the standard High-Order Control Barrier Function (HOCBF) approach and propose a truncated Taylor-based approach that reduces design parameters. First, we derive the explicit inequality condition for the HOCBF approach and show that the corresponding equality condition sets a lower bound on the barrier function value that regulates its decay rate. Next, we present our Truncated Taylor CBF (TTCBF), which uses a truncated Taylor series to approximate the discrete-time CBF condition. While the standard HOCBF approach requires multiple class K functions, leading to more design parameters as the constraint’s relative degree increases, our TTCBF approach requires only one. We support our theoretical findings in numerical collision-avoidance experiments and show that our approach ensures safety while reducing design complexity.

arxiv情報

著者 Jianye Xu,Bassam Alrifaee
発行日 2025-03-19 09:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | High-Order Control Barrier Functions: Insights and a Truncated Taylor-Based Formulation はコメントを受け付けていません

DRoPE: Directional Rotary Position Embedding for Efficient Agent Interaction Modeling

要約

エージェント相互作用の正確で効率的なモデリングは、自律運転システムの中核である軌道生成に不可欠です。
シーン中心、エージェント中心、およびクエリ中心のフレームワーク、それぞれが明確な利点と欠点を提示し、精度、計算時間、およびメモリ効率の間で不可能な三角形を作成します。
この制限を破るために、元々自然言語処理で開発された回転位置埋め込み(ロープ)の新しい適応である方向回転位置埋め込み(DROPE)を提案します。
かなりの空間の複雑さをもたらす従来の相対位置埋め込み(RPE)とは異なり、ロープは複雑さを明示的に増加させることなく相対位置を効率的にエンコードしますが、周期性による角度情報の取り扱いには固有の制限に直面します。
Dropeは、均一なアイデンティティスカラーをロープの2D回転変換に導入し、回転角を現実的なエージェントの見出しに合わせて相対的な角度情報を自然にエンコードすることにより、この制限を克服します。
Dropeの正確性と効率性を理論的に分析し、軌道の生成の精度、時間の複雑さ、および空間の複雑さを同時に最適化する能力を実証します。
経験的評価さまざまな最先端の軌道生成モデルと比較して、Dropeの優れたパフォーマンスを確認し、スペースの複雑さを大幅に減らし、理論的な健全性と実用的な有効性の両方を示しています。
ビデオドキュメントは、https://drope-traj.github.io/で入手できます。

要約(オリジナル)

Accurate and efficient modeling of agent interactions is essential for trajectory generation, the core of autonomous driving systems. Existing methods, scene-centric, agent-centric, and query-centric frameworks, each present distinct advantages and drawbacks, creating an impossible triangle among accuracy, computational time, and memory efficiency. To break this limitation, we propose Directional Rotary Position Embedding (DRoPE), a novel adaptation of Rotary Position Embedding (RoPE), originally developed in natural language processing. Unlike traditional relative position embedding (RPE), which introduces significant space complexity, RoPE efficiently encodes relative positions without explicitly increasing complexity but faces inherent limitations in handling angular information due to periodicity. DRoPE overcomes this limitation by introducing a uniform identity scalar into RoPE’s 2D rotary transformation, aligning rotation angles with realistic agent headings to naturally encode relative angular information. We theoretically analyze DRoPE’s correctness and efficiency, demonstrating its capability to simultaneously optimize trajectory generation accuracy, time complexity, and space complexity. Empirical evaluations compared with various state-of-the-art trajectory generation models, confirm DRoPE’s good performance and significantly reduced space complexity, indicating both theoretical soundness and practical effectiveness. The video documentation is available at https://drope-traj.github.io/.

arxiv情報

著者 Jianbo Zhao,Taiyu Ban,Zhihao Liu,Hangning Zhou,Xiyang Wang,Qibin Zhou,Hailong Qin,Mu Yang,Lei Liu,Bin Li
発行日 2025-03-19 09:23:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DRoPE: Directional Rotary Position Embedding for Efficient Agent Interaction Modeling はコメントを受け付けていません

GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback

要約

ロボット操作の大幅な進歩にもかかわらず、一貫性のある安定した把握を達成することは依然として根本的な課題であり、しばしば複雑なタスクの実行の成功を制限します。
私たちの分析により、最先端のポリシーモデルでさえ、不安定な把握行動を頻繁に示すことが明らかになり、実際のロボットアプリケーションでボトルネックを作成する失敗ケースにつながります。
これらの課題に対処するために、Vision-Language Model-Guidedフィードバックを通じて把握パフォーマンスを向上させるように設計されたプラグアンドプレイモジュールであるGraspCorrectを紹介します。
GraspCorrectは、2つの重要なコンポーネントを備えた反復的な視覚的な質問フレームワークを採用しています。タスク固有の制約とオブジェクト認識サンプリングを組み込み、物理的に実行可能な把握候補の選択を保証するオブジェクト認識サンプリングを採用しています。
中間の視覚目標を繰り返し生成し、それらを共同レベルのアクションに変換することにより、GRASPCORECTは安定性を大幅に改善し、RLBenchおよびCalvinデータセットの既存のポリシーモデル全体でタスクの成功率を一貫して強化します。

要約(オリジナル)

Despite significant advancements in robotic manipulation, achieving consistent and stable grasping remains a fundamental challenge, often limiting the successful execution of complex tasks. Our analysis reveals that even state-of-the-art policy models frequently exhibit unstable grasping behaviors, leading to failure cases that create bottlenecks in real-world robotic applications. To address these challenges, we introduce GraspCorrect, a plug-and-play module designed to enhance grasp performance through vision-language model-guided feedback. GraspCorrect employs an iterative visual question-answering framework with two key components: grasp-guided prompting, which incorporates task-specific constraints, and object-aware sampling, which ensures the selection of physically feasible grasp candidates. By iteratively generating intermediate visual goals and translating them into joint-level actions, GraspCorrect significantly improves grasp stability and consistently enhances task success rates across existing policy models in the RLBench and CALVIN datasets.

arxiv情報

著者 Sungjae Lee,Yeonjoo Hong,Kwang In Kim
発行日 2025-03-19 09:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback はコメントを受け付けていません