Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach

要約

具体化されたAIの進歩により、エンドツーエンドの訓練を受けたエージェントが、高レベルの推論とゼロショットまたは言語条件付けの動作を備えた写真リアルな環境でナビゲートすることが可能になりましたが、ベンチマークはまだシミュレーションによって支配されています。
この作業では、急速に移動する本物のロボットのきめの細かい動作に焦点を当て、物理的なロボットを備えた実際の環境で\ numepisodes {}ナビゲーションエピソードを含む大規模な実験的研究を提示します。
特に、エージェントがオープンループ予測のために学んだ現実的なダイナミクスの存在と、センシングとの相互作用を研究します。
エージェントが潜在メモリを使用して、探査中に収集されたシーン構造と情報の要素を保持する方法を分析します。
エージェントの計画能力を調査し、限られた地平線よりも多少正確な計画の記憶の証拠を見つけます。
さらに、事後分析では、エージェントが学んだ値関数が長期計画に関連していることを示します。
まとめて、私たちの実験では、コンピュータービジョンとシーケンシャルな意思決定からのツールを使用することで、ロボット工学と制御の新しい機能につながったことについての新しい絵を描きます。
インタラクティブツールは、europe.naverlabs.com/research/publications/reasoning-in-visual-navigation of-end-end-trained-agentで入手できます。

要約(オリジナル)

Progress in Embodied AI has made it possible for end-to-end-trained agents to navigate in photo-realistic environments with high-level reasoning and zero-shot or language-conditioned behavior, but benchmarks are still dominated by simulation. In this work, we focus on the fine-grained behavior of fast-moving real robots and present a large-scale experimental study involving \numepisodes{} navigation episodes in a real environment with a physical robot, where we analyze the type of reasoning emerging from end-to-end training. In particular, we study the presence of realistic dynamics which the agent learned for open-loop forecasting, and their interplay with sensing. We analyze the way the agent uses latent memory to hold elements of the scene structure and information gathered during exploration. We probe the planning capabilities of the agent, and find in its memory evidence for somewhat precise plans over a limited horizon. Furthermore, we show in a post-hoc analysis that the value function learned by the agent relates to long-term planning. Put together, our experiments paint a new picture on how using tools from computer vision and sequential decision making have led to new capabilities in robotics and control. An interactive tool is available at europe.naverlabs.com/research/publications/reasoning-in-visual-navigation-of-end-to-end-trained-agents.

arxiv情報

著者 Steeven Janny,Hervé Poirier,Leonid Antsfeld,Guillaume Bono,Gianluca Monaci,Boris Chidlovskii,Francesco Giuliari,Alessio Del Bue,Christian Wolf
発行日 2025-03-11 11:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach はコメントを受け付けていません

Dynamic Risk Assessment for Human-Robot Collaboration Using a Heuristics-based Approach

要約

Human-Robot Collaboration(HRC)は、特に共同ロボット(コボット)と一緒に作業する人間のオペレーターを保護する上で、重要な安全上の課題をもたらします。
現在のISO基準はリスク評価とハザードの識別を強調していますが、これらの手順は、多数の設計要因と動的な相互作用を伴うHRC環境の複雑さに対処するためにはしばしば不十分です。
この出版物は、客観的な危険分析の方法を提示し、動的なリスク評価をサポートし、専門知識への依存を超えて拡大します。
このアプローチは、人体の部分とコボット間の距離などのシーンパラメーター、およびコボットのデカルト速度を監視します。
さらに、共同ワークスペース内の人間の頭の向きに焦点を当てた人類中心のパラメーターが導入されています。
これらのパラメーターは、非線形ヒューリスティック関数を使用してハザードインジケーターに変換されます。
その後、ハザードインジケーターを集計して、特定のシナリオの総ハザードレベルを推定します。
提案された方法は、人間のオペレーターとコボットの間のさまざまな相互作用を描写する産業データセットを使用して評価されます。

要約(オリジナル)

Human-robot collaboration (HRC) introduces significant safety challenges, particularly in protecting human operators working alongside collaborative robots (cobots). While current ISO standards emphasize risk assessment and hazard identification, these procedures are often insufficient for addressing the complexity of HRC environments, which involve numerous design factors and dynamic interactions. This publication presents a method for objective hazard analysis to support Dynamic Risk Assessment, extending beyond reliance on expert knowledge. The approach monitors scene parameters, such as the distance between human body parts and the cobot, as well as the cobot`s Cartesian velocity. Additionally, an anthropocentric parameter focusing on the orientation of the human head within the collaborative workspace is introduced. These parameters are transformed into hazard indicators using non-linear heuristic functions. The hazard indicators are then aggregated to estimate the total hazard level of a given scenario. The proposed method is evaluated using an industrial dataset that depicts various interactions between a human operator and a cobot.

arxiv情報

著者 Georgios Katranis,Frederik Plahl,Joachim Grimstadt,Ilshat Mamaev,Silvia Vock,Andrey Morozov
発行日 2025-03-11 11:25:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dynamic Risk Assessment for Human-Robot Collaboration Using a Heuristics-based Approach はコメントを受け付けていません

Uni-Gaussians: Unifying Camera and Lidar Simulation with Gaussians for Dynamic Driving Scenarios

要約

自動運転車の安全性を確保するには、さまざまな動的な駆動シナリオにわたって、カメラとLIDARセンサーの両方からの入力を含むマルチセンサーデータの包括的なシミュレーションが必要です。
収集された生センサーデータを利用してこれらの動的環境をシミュレートするニューラルレンダリング技術は、主要な方法論として浮上しています。
NERFベースのアプローチは、カメラとLidarの両方からデータをレンダリングするためのシーンを均一に表すことができますが、サンプリングが密なため、速度が遅いため、妨げられます。
逆に、ガウスのスプラッティングベースの方法は、シーン表現のためにガウスプリミティブを使用し、ラスター化による迅速なレンダリングを達成します。
ただし、これらのラスター化ベースの技術は、非線形光学センサーを正確にモデル化するのに苦労しています。
この制限により、ピンホールカメラを超えたセンサーへの適用性が制限されます。
これらの課題に対処し、ガウスプリミティブを使用した動的運転シナリオの統一された表現を可能にするために、この研究は新しいハイブリッドアプローチを提案します。
私たちのメソッドは、Lidarデータレンダリング用のガウスレイトレースを使用しながら、画像データをレンダリングするためにラスター化を利用しています。
パブリックデータセットの実験結果は、私たちのアプローチが現在の最先端の方法よりも優れていることを示しています。
この作業は、ガウスプリミティブを使用した自律運転シナリオにおけるカメラとライダーデータの現実的なシミュレーションのための統一された効率的なソリューションを提供し、品質と計算効率の両方のレンダリングの両方に大きな進歩をもたらします。

要約(オリジナル)

Ensuring the safety of autonomous vehicles necessitates comprehensive simulation of multi-sensor data, encompassing inputs from both cameras and LiDAR sensors, across various dynamic driving scenarios. Neural rendering techniques, which utilize collected raw sensor data to simulate these dynamic environments, have emerged as a leading methodology. While NeRF-based approaches can uniformly represent scenes for rendering data from both camera and LiDAR, they are hindered by slow rendering speeds due to dense sampling. Conversely, Gaussian Splatting-based methods employ Gaussian primitives for scene representation and achieve rapid rendering through rasterization. However, these rasterization-based techniques struggle to accurately model non-linear optical sensors. This limitation restricts their applicability to sensors beyond pinhole cameras. To address these challenges and enable unified representation of dynamic driving scenarios using Gaussian primitives, this study proposes a novel hybrid approach. Our method utilizes rasterization for rendering image data while employing Gaussian ray-tracing for LiDAR data rendering. Experimental results on public datasets demonstrate that our approach outperforms current state-of-the-art methods. This work presents a unified and efficient solution for realistic simulation of camera and LiDAR data in autonomous driving scenarios using Gaussian primitives, offering significant advancements in both rendering quality and computational efficiency.

arxiv情報

著者 Zikang Yuan,Yuechuan Pu,Hongcheng Luo,Fengtian Lang,Cheng Chi,Teng Li,Yingying Shen,Haiyang Sun,Bing Wang,Xin Yang
発行日 2025-03-11 11:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NI, cs.RO | Uni-Gaussians: Unifying Camera and Lidar Simulation with Gaussians for Dynamic Driving Scenarios はコメントを受け付けていません

RoboCAP: Robotic Classification and Precision Pouring of Diverse Liquids and Granular Media with Capacitive Sensing

要約

液体と粒状媒体は、人間の環境全体に広まっていますが、ロボットが正確に感知し操作することは特に挑戦的です。
この作業では、ロボットエンドエフェクター内に静電容量センシングを統合して、液体と粒状培地の堅牢なセンシングと正確な操作を可能にするための体系的なアプローチを提示します。
ロボットが視覚的に不透明を含む多様な容器内の液体の材料とダイナミクスを直接感知できるようにする、埋め込まれた静電容量センシングアレイを備えたパラレルジョーロボキャップグリッパーを導入します。
モデルベースの制御と組み合わせると、提案されたシステムにより、ロボットマニピュレーターがダイナミクス特性がさまざまな範囲の物質に対して最先端の精度の精度を実現できることを実証します。
コード、デザイン、およびビルドの詳細は、プロジェクトWebサイトで入手できます。

要約(オリジナル)

Liquids and granular media are pervasive throughout human environments, yet remain particularly challenging for robots to sense and manipulate precisely. In this work, we present a systematic approach at integrating capacitive sensing within robotic end effectors to enable robust sensing and precise manipulation of liquids and granular media. We introduce the parallel-jaw RoboCAP Gripper with embedded capacitive sensing arrays that enable a robot to directly sense the materials and dynamics of liquids inside of diverse containers, including some visually opaque. When coupled with model-based control, we demonstrate that the proposed system enables a robotic manipulator to achieve state-of-the-art precision pouring accuracy for a range of substances with varying dynamics properties. Code, designs, and build details are available on the project website.

arxiv情報

著者 Yexin Hu,Alexandra Gillespie,Akhil Padmanabha,Kavya Puthuveetil,Wesley Lewis,Karan Khokar,Zackory Erickson
発行日 2025-03-11 11:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RoboCAP: Robotic Classification and Precision Pouring of Diverse Liquids and Granular Media with Capacitive Sensing はコメントを受け付けていません

KiteRunner: Language-Driven Cooperative Local-Global Navigation Policy with UAV Mapping in Outdoor Environments

要約

オープンワールドの屋外環境での自律的なナビゲーションは、動的条件、長距離空間推論、および意味的理解を統合する上での課題に直面しています。
従来の方法は、地元の計画、グローバルな計画、セマンティックタスクの実行のバランスをとるのに苦労していますが、既存の大規模な言語モデル(LLM)はセマンティック理解を高めますが、空間的推論能力がありません。
拡散モデルはローカルの最適化に優れていますが、大規模な長距離ナビゲーションには不足しています。
これらのギャップに対処するために、このペーパーでは、UAVオルトフォトベースのグローバル計画と、オープンワールドシナリオでの長距離ナビゲーションのための拡散モデル駆動型ローカルパス生成を組み合わせた言語主導の協同組合のローカルグロバルナビゲーション戦略であるKiterunnerを提案します。
私たちの方法は、リアルタイムのUAVオルソフォトグラフィーを革新的に活用してグローバルな確率マップを構築し、自然言語の指示を解釈するためにクリップやGPTなどの大規模なモデルを統合しながら、ローカルプランナーの移動性ガイダンスを提供します。
実験では、Kiterunnerがそれぞれ、構造化された環境と非構造化されていない環境で最先端の方法よりもパス効率が5.6%および12.8%の改善を達成し、人間の介入と実行時間の大幅な削減を実現することを示しています。

要約(オリジナル)

Autonomous navigation in open-world outdoor environments faces challenges in integrating dynamic conditions, long-distance spatial reasoning, and semantic understanding. Traditional methods struggle to balance local planning, global planning, and semantic task execution, while existing large language models (LLMs) enhance semantic comprehension but lack spatial reasoning capabilities. Although diffusion models excel in local optimization, they fall short in large-scale long-distance navigation. To address these gaps, this paper proposes KiteRunner, a language-driven cooperative local-global navigation strategy that combines UAV orthophoto-based global planning with diffusion model-driven local path generation for long-distance navigation in open-world scenarios. Our method innovatively leverages real-time UAV orthophotography to construct a global probability map, providing traversability guidance for the local planner, while integrating large models like CLIP and GPT to interpret natural language instructions. Experiments demonstrate that KiteRunner achieves 5.6% and 12.8% improvements in path efficiency over state-of-the-art methods in structured and unstructured environments, respectively, with significant reductions in human interventions and execution time.

arxiv情報

著者 Shibo Huang,Chenfan Shi,Jian Yang,Hanlin Dong,Jinpeng Mi,Ke Li,Jianfeng Zhang,Miao Ding,Peidong Liang,Xiong You,Xian Wei
発行日 2025-03-11 11:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | KiteRunner: Language-Driven Cooperative Local-Global Navigation Policy with UAV Mapping in Outdoor Environments はコメントを受け付けていません

Trinity: A Modular Humanoid Robot AI System

要約

近年、ヒューマノイドロボットに関する研究により、注目が高まっています。
さまざまな種類の人工知能アルゴリズムのブレークスルーにより、ヒューマノイドロボットによって例示される具体化された知能が非常に期待されています。
補強学習(RL)アルゴリズムの進歩により、ヒューマノイドロボットのモーション制御と一般化能力が大幅に改善されました。
同時に、大規模な言語モデル(LLM)と視覚言語モデル(VLM)の画期的な進捗状況は、ヒューマノイドロボットにより多くの可能性と想像力をもたらしました。
LLMにより、ヒューマノイドロボットは言語命令からの複雑なタスクを理解し、長期的なタスク計画を実行できますが、VLMはロボットの環境との理解と相互作用を大幅に向上させます。
このペーパーでは、RL、LLM、およびVLMを統合するヒューマノイドロボットの新しいAIシステムである\ TextColor {Magenta} {Trinity}を紹介します。
これらの技術を組み合わせることにより、Trinityは複雑な環境でヒューマノイドロボットを効率的に制御できるようにします。
この革新的なアプローチは、機能を強化するだけでなく、ヒューマノイドロボット工学の将来の研究と応用のための新しい道を開きます。

要約(オリジナル)

In recent years, research on humanoid robots has garnered increasing attention. With breakthroughs in various types of artificial intelligence algorithms, embodied intelligence, exemplified by humanoid robots, has been highly anticipated. The advancements in reinforcement learning (RL) algorithms have significantly improved the motion control and generalization capabilities of humanoid robots. Simultaneously, the groundbreaking progress in large language models (LLM) and visual language models (VLM) has brought more possibilities and imagination to humanoid robots. LLM enables humanoid robots to understand complex tasks from language instructions and perform long-term task planning, while VLM greatly enhances the robots’ understanding and interaction with their environment. This paper introduces \textcolor{magenta}{Trinity}, a novel AI system for humanoid robots that integrates RL, LLM, and VLM. By combining these technologies, Trinity enables efficient control of humanoid robots in complex environments. This innovative approach not only enhances the capabilities but also opens new avenues for future research and applications of humanoid robotics.

arxiv情報

著者 Jingkai Sun,Qiang Zhang,Gang Han,Wen Zhao,Zhe Yong,Yan He,Jiaxu Wang,Jiahang Cao,Yijie Guo,Renjing Xu
発行日 2025-03-11 11:50:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Trinity: A Modular Humanoid Robot AI System はコメントを受け付けていません

LiPS: Large-Scale Humanoid Robot Reinforcement Learning with Parallel-Series Structures

要約

近年、ヒューマノイドロボットに関する研究は、特に補強学習ベースのコントロールアルゴリズムにおいて、大きなブレークスルーを達成していることにおいて大きな注目を集めています。
従来のモデルベースの制御アルゴリズムと比較して、補強学習ベースのアルゴリズムは、複雑なタスクの処理において大きな利点を示しています。
GPUの大規模な並列コンピューティング機能を活用すると、現代のヒューマノイドロボットは、シミュレートされた環境で広範な並行トレーニングを受ける可能性があります。
大規模な並列トレーニングが可能な物理シミュレーションプラットフォームは、ヒューマノイドロボットの開発に不可欠です。
最も複雑なロボット形式の1つとして、ヒューマノイドロボットは通常、複雑な機械的構造を持ち、多数のシリーズと並列メカニズムを網羅しています。
ただし、多くの強化学習ベースのヒューマノイドロボット制御アルゴリズムは現在、トレーニング中にオープンループトポロジを採用しており、SIM2real位相までのシリーズ並列構造への変換を延期しています。
現在のGPUベースの物理エンジンは、多くの場合、オープンループトポロジのみをサポートするか、多縁体閉ループトポロジをシミュレートする機能が限られているため、このアプローチは主に物理エンジンの制限によるものです。
強化学習ベースのヒューマノイドロボット制御アルゴリズムを大規模な平行環境でトレーニングできるようにするために、新しいトレーニング方法の唇を提案します。
シミュレーション環境にマルチリジッドボディダイナミクスモデリングを組み込むことにより、モデルの展開中にSim2realギャップと並列構造に変換することの難しさを大幅に削減し、それによりヒューマノイドロボットの大規模な補強学習を堅牢にサポートします。

要約(オリジナル)

In recent years, research on humanoid robots has garnered significant attention, particularly in reinforcement learning based control algorithms, which have achieved major breakthroughs. Compared to traditional model-based control algorithms, reinforcement learning based algorithms demonstrate substantial advantages in handling complex tasks. Leveraging the large-scale parallel computing capabilities of GPUs, contemporary humanoid robots can undergo extensive parallel training in simulated environments. A physical simulation platform capable of large-scale parallel training is crucial for the development of humanoid robots. As one of the most complex robot forms, humanoid robots typically possess intricate mechanical structures, encompassing numerous series and parallel mechanisms. However, many reinforcement learning based humanoid robot control algorithms currently employ open-loop topologies during training, deferring the conversion to series-parallel structures until the sim2real phase. This approach is primarily due to the limitations of physics engines, as current GPU-based physics engines often only support open-loop topologies or have limited capabilities in simulating multi-rigid-body closed-loop topologies. For enabling reinforcement learning-based humanoid robot control algorithms to train in large-scale parallel environments, we propose a novel training method LiPS. By incorporating multi-rigid-body dynamics modeling in the simulation environment, we significantly reduce the sim2real gap and the difficulty of converting to parallel structures during model deployment, thereby robustly supporting large-scale reinforcement learning for humanoid robots.

arxiv情報

著者 Qiang Zhang,Gang Han,Jingkai Sun,Wen Zhao,Jiahang Cao,Jiaxu Wang,Hao Cheng,Lingfeng Zhang,Yijie Guo,Renjing Xu
発行日 2025-03-11 12:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LiPS: Large-Scale Humanoid Robot Reinforcement Learning with Parallel-Series Structures はコメントを受け付けていません

DG16M: A Large-Scale Dataset for Dual-Arm Grasping with Force-Optimized Grasps

要約

デュアルアームロボットの把握は、安定した調整された操作を必要とする大きなオブジェクトを処理するために重要です。
シングルアームの把握は広範囲に研究されていますが、デュアルアーム設定に合わせたデータセットは依然として不足しています。
改良された力閉鎖制約の下で評価された1600万のデュアルアームグラップの大規模なデータセットを導入します。
さらに、物理シミュレーション環境で評価された約30,000個の握りを備えた300個のオブジェクトを含むベンチマークデータセットを開発し、デュアルアーム把握合成方法のより良い把握品質評価を提供します。
最後に、最先端のメソッドを15 \%上回るデュアルアーム把握分類装置ネットワークをトレーニングすることにより、データセットの有効性を実証し、オブジェクト全体でより高い把握成功率と一般化の改善を達成します。

要約(オリジナル)

Dual-arm robotic grasping is crucial for handling large objects that require stable and coordinated manipulation. While single-arm grasping has been extensively studied, datasets tailored for dual-arm settings remain scarce. We introduce a large-scale dataset of 16 million dual-arm grasps, evaluated under improved force-closure constraints. Additionally, we develop a benchmark dataset containing 300 objects with approximately 30,000 grasps, evaluated in a physics simulation environment, providing a better grasp quality assessment for dual-arm grasp synthesis methods. Finally, we demonstrate the effectiveness of our dataset by training a Dual-Arm Grasp Classifier network that outperforms the state-of-the-art methods by 15\%, achieving higher grasp success rates and improved generalization across objects.

arxiv情報

著者 Md Faizal Karim,Mohammed Saad Hashmi,Shreya Bollimuntha,Mahesh Reddy Tapeti,Gaurav Singh,Nagamanikandan Govindan,K Madhava Krishna
発行日 2025-03-11 12:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DG16M: A Large-Scale Dataset for Dual-Arm Grasping with Force-Optimized Grasps はコメントを受け付けていません

CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs

要約

Object Goal Navigation(ObjectNav)は、具体化されたAIの基本的なタスクであり、エージェントが以前に見えなかった環境でターゲットオブジェクトを見つける必要があります。
このタスクは、オブジェクトの認識や意思決定など、知覚プロセスと認知プロセスの両方を必要とするため、特に困難です。
視覚的基礎モデルの急速な発展によって、認識の実質的な進歩が促進されていますが、認知的側面の進歩は、主にシミュレーターロールアウトによる暗黙の学習または事前定義されたヒューリスティックルールへの明示的な依存のいずれかに限定されています。
人間が新しい環境でのオブジェクト検索タスク中にきめ細かい認知状態を維持し、動的に更新することを実証する神経科学的発見に触発された私たちは、大規模な言語モデルを使用してこの認知プロセスを模倣するように設計されたフレームワークであるCognavを提案します。
具体的には、探査から識別に至るまで、きめ細かい認知状態を含む有限状態マシンを使用して認知プロセスをモデル化します。
状態間の遷移は、動的に構築された不均一な認知マップに基づいた大規模な言語モデルによって決定されます。
HM3D、MP3D、およびRobothorのベンチマークに関する広範な評価は、当社の認知プロセスモデリングにより、ObjectNavの成功率が少なくとも最先端の14%を大幅に改善することを示しています。

要約(オリジナル)

Object goal navigation (ObjectNav) is a fundamental task in embodied AI, requiring an agent to locate a target object in previously unseen environments. This task is particularly challenging because it requires both perceptual and cognitive processes, including object recognition and decision-making. While substantial advancements in perception have been driven by the rapid development of visual foundation models, progress on the cognitive aspect remains constrained, primarily limited to either implicit learning through simulator rollouts or explicit reliance on predefined heuristic rules. Inspired by neuroscientific findings demonstrating that humans maintain and dynamically update fine-grained cognitive states during object search tasks in novel environments, we propose CogNav, a framework designed to mimic this cognitive process using large language models. Specifically, we model the cognitive process using a finite state machine comprising fine-grained cognitive states, ranging from exploration to identification. Transitions between states are determined by a large language model based on a dynamically constructed heterogeneous cognitive map, which contains spatial and semantic information about the scene being explored. Extensive evaluations on the HM3D, MP3D, and RoboTHOR benchmarks demonstrate that our cognitive process modeling significantly improves the success rate of ObjectNav at least by relative 14% over the state-of-the-arts.

arxiv情報

著者 Yihan Cao,Jiazhao Zhang,Zhinan Yu,Shuzhen Liu,Zheng Qin,Qin Zou,Bo Du,Kai Xu
発行日 2025-03-11 12:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2 | CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs はコメントを受け付けていません

MetaFold: Language-Guided Multi-Category Garment Folding Framework via Trajectory Generation and Foundation Model

要約

衣服の折り畳みは、ロボット操作において一般的でありながらやりがいのある作業です。
衣服の変形性は、広大な状態空間と複雑なダイナミクスにつながり、正確できめの細かい操作を複雑にします。
以前のアプローチは、多くの場合、事前に定義されたキーポイントまたはデモンストレーションに依存しており、多様な衣服のカテゴリ全体でそれらの一般化を制限しています。
このホワイトペーパーでは、アクション予測からタスク計画を解き放ち、モデルの一般化を強化するためにそれぞれを独立して学習するフレームワーク、メタフォールドを紹介します。
タスク計画には言語誘導ポイントクラウド軌道生成と、アクション予測のための低レベルの基礎モデルを採用しています。
この構造は、マルチカテゴリ学習を促進し、モデルがさまざまなユーザーの指示や折りたたみ式タスクに柔軟に適応できるようにします。
実験結果は、提案されたフレームワークの優位性を示しています。
補足資料は、当社のウェブサイトhttps://meta-fold.github.io/で入手できます。

要約(オリジナル)

Garment folding is a common yet challenging task in robotic manipulation. The deformability of garments leads to a vast state space and complex dynamics, which complicates precise and fine-grained manipulation. Previous approaches often rely on predefined key points or demonstrations, limiting their generalization across diverse garment categories. This paper presents a framework, MetaFold, that disentangles task planning from action prediction, learning each independently to enhance model generalization. It employs language-guided point cloud trajectory generation for task planning and a low-level foundation model for action prediction. This structure facilitates multi-category learning, enabling the model to adapt flexibly to various user instructions and folding tasks. Experimental results demonstrate the superiority of our proposed framework. Supplementary materials are available on our website: https://meta-fold.github.io/.

arxiv情報

著者 Haonan Chen,Junxiao Li,Ruihai Wu,Yiwei Liu,Yiwen Hou,Zhixuan Xu,Jingxiang Guo,Chongkai Gao,Zhenyu Wei,Shensi Xu,Jiaqi Huang,Lin Shao
発行日 2025-03-11 12:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MetaFold: Language-Guided Multi-Category Garment Folding Framework via Trajectory Generation and Foundation Model はコメントを受け付けていません