Fish Mouth Inspired Origami Gripper for Robust Multi-Type Underwater Grasping

要約

水中環境でのロボットの把握と操作は、伝統的に陸地で使用されていたロボットの手にユニークな課題を提示します。
これらの課題は、動的な水の条件、柔らかいものから硬い不規則なオブジェクト形状、さまざまな表面摩擦までの幅広いオブジェクト特性に由来しています。
一般的なアプローチの1つは、不足およびソフトアクチュエーターを使用して、埋め込まれたコンプライアンスで指ベースの手を開発することです。
この研究では、指ベースのハンドデザインに依存しない効果的な代替ソリューションを紹介します。
魚の口に触発された折り紙グリッパーを紹介します。これは、水中でさまざまな堅牢な把握タスクを実行するために単一の自由度を利用しています。
革新的な構造は、ヨシムラの折り目パターンの折りたたみに基づいて、単純な一軸引っ張り動きを把握作用に変換します。
折り紙グリッパーは、スケーラブルで最適化可能なデザイン、握り、コンプライアンス、堅牢性を含む、ピンチ、パワーグラス、複数のオブジェクトの同時把握、海底からのスクープなど、明確な利点を提供します。
この作業では、クラゲ、カニ、アワビなどのさまざまな海洋生物を処理できる専門の水中グリッパーの設計、モデリング、製造、および検証について詳しく説明します。
折り紙とバイオに触発されたアプローチを活用することにより、提示されたグリッパーは、水中環境でのロボット把持と操作の可能性を有望であることを示しています。

要約(オリジナル)

Robotic grasping and manipulation in underwater environments present unique challenges for robotic hands traditionally used on land. These challenges stem from dynamic water conditions, a wide range of object properties from soft to stiff, irregular object shapes, and varying surface frictions. One common approach involves developing finger-based hands with embedded compliance using underactuation and soft actuators. This study introduces an effective alternative solution that does not rely on finger-based hand designs. We present a fish mouth inspired origami gripper that utilizes a single degree of freedom to perform a variety of robust grasping tasks underwater. The innovative structure transforms a simple uniaxial pulling motion into a grasping action based on the Yoshimura crease pattern folding. The origami gripper offers distinct advantages, including scalable and optimizable design, grasping compliance, and robustness, with four grasping types: pinch, power grasp, simultaneous grasping of multiple objects, and scooping from the seabed. In this work, we detail the design, modeling, fabrication, and validation of a specialized underwater gripper capable of handling various marine creatures, including jellyfish, crabs, and abalone. By leveraging an origami and bio-inspired approach, the presented gripper demonstrates promising potential for robotic grasping and manipulation in underwater environments.

arxiv情報

著者 Honghao Guo,Junda Huang,Ian Zhang,Boyuan Liang,Xin Ma,Yunhui Liu,Jianshu Zhou
発行日 2025-03-20 19:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Depth Matters: Multimodal RGB-D Perception for Robust Autonomous Agents

要約

リアルタイムの制御決定を行うために純粋に認識に依存する自律エージェントは、効率的で堅牢なアーキテクチャを必要とします。
この作業では、深さ情報を使用してRGB入力を増強すると、RGBのみを使用するのと比較して、ステアリングコマンドを予測するエージェントの能力が大幅に向上することを実証します。
融合したRGB-D機能を活用して、シーケンシャルな意思決定を活用する軽量の再発コントローラーをベンチマークします。
モデルをトレーニングするために、物理的なステアリングホイールを介して専門のドライバーが制御する小規模な自動運転車を使用して高品質のデータを収集し、さまざまなレベルのステアリング難易度をキャプチャします。
多様な構成の下でトレーニングされたモデルは、実際のハードウェアに正常に展開されました。
具体的には、我々の調査結果は、深さデータの早期融合が非常に堅牢なコントローラーをもたらすことを明らかにしています。これは、タスクにネットワークの焦点を損なうことなく、フレームドロップとノイズレベルの増加でも効果的なままです。

要約(オリジナル)

Autonomous agents that rely purely on perception to make real-time control decisions require efficient and robust architectures. In this work, we demonstrate that augmenting RGB input with depth information significantly enhances our agents’ ability to predict steering commands compared to using RGB alone. We benchmark lightweight recurrent controllers that leverage the fused RGB-D features for sequential decision-making. To train our models, we collect high-quality data using a small-scale autonomous car controlled by an expert driver via a physical steering wheel, capturing varying levels of steering difficulty. Our models, trained under diverse configurations, were successfully deployed on real hardware. Specifically, our findings reveal that the early fusion of depth data results in a highly robust controller, which remains effective even with frame drops and increased noise levels, without compromising the network’s focus on the task.

arxiv情報

著者 Mihaela-Larisa Clement,Mónika Farsang,Felix Resch,Radu Grosu
発行日 2025-03-20 21:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Parameter Adjustments in POMDP-Based Trajectory Planning for Unsignalized Intersections

要約

このペーパーでは、署名されていない交差点で自動運転車の軌跡計画の問題を調査します。特に、車両に道のりがなくても安全に交差しなければならないシナリオに焦点を当てています。
この問題に対処するために、不確実性の下で計画するために設計された部分的に観察可能なマルコフ決定プロセス(POMDP)フレームワークに基づいた方法を採用しました。
このメソッドは、POMDPの近似ソルバーとして、適応信念ツリー(ABT)アルゴリズムを使用します。
交差点のトポロジーを離散化することから、POMDPの定式化の概要を説明します。
さらに、車両の位置や速度などの進化する状態の予測のためのダイナミクスモデルを提示します。
観察モデルを使用して、これらの状態と不完全な(騒々しい)利用可能な測定値とのつながりについても説明します。
私たちの結果は、この方法が、2つの異なる交差点の航空映像からの実際のトラフィックデータを利用する一連のシミュレーションで衝突のない軌跡を計画できることを確認しました。
さらに、メソッドのパフォーマンスに対するABTアルゴリズムのパラメーター調整の影響を研究しました。
これにより、合理的なパラメーター設定を決定する際のガイダンスが提供されます。これは、将来のメソッドアプリケーションに役立ちます。

要約(オリジナル)

This paper investigates the problem of trajectory planning for autonomous vehicles at unsignalized intersections, specifically focusing on scenarios where the vehicle lacks the right of way and yet must cross safely. To address this issue, we have employed a method based on the Partially Observable Markov Decision Processes (POMDPs) framework designed for planning under uncertainty. The method utilizes the Adaptive Belief Tree (ABT) algorithm as an approximate solver for the POMDPs. We outline the POMDP formulation, beginning with discretizing the intersection’s topology. Additionally, we present a dynamics model for the prediction of the evolving states of vehicles, such as their position and velocity. Using an observation model, we also describe the connection of those states with the imperfect (noisy) available measurements. Our results confirmed that the method is able to plan collision-free trajectories in a series of simulations utilizing real-world traffic data from aerial footage of two distinct intersections. Furthermore, we studied the impact of parameter adjustments of the ABT algorithm on the method’s performance. This provides guidance in determining reasonable parameter settings, which is valuable for future method applications.

arxiv情報

著者 Adam Kollarčík adn Zdeněk Hanzálek
発行日 2025-03-20 21:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Ground and Flight Locomotion for Two-Wheeled Drones via Model Predictive Path Integral Control

要約

このペーパーでは、地面を駆動して空中で飛ぶことができる二輪ドローンのモーション計画に対する新しいアプローチを提示します。
二輪ドローンモーション計画の従来の方法は、通常、勾配ベースの最適化に依存しており、障害物の形が微分可能な形で近似できると仮定します。
この制限を克服するために、モデル予測パス積分(MPPI)制御に基づいたモーション計画方法を提案し、運転モードと飛行モードを切り替えることにより、任意に形作られた障害物を介したナビゲーションを可能にします。
モードスイッチングによって引き起こされる不安定性と迅速なソリューションの変更を処理するために、提案されたメソッドは制御スペースを切り替え、MPPIの補助コントローラーを利用します。
シミュレーション結果は、提案された方法が非構造化された環境でのナビゲーションを可能にし、モードスイッチングを通じて効果的な障害物回避を実現することを示しています。

要約(オリジナル)

This paper presents a novel approach to motion planning for two-wheeled drones that can drive on the ground and fly in the air. Conventional methods for two-wheeled drone motion planning typically rely on gradient-based optimization and assume that obstacle shapes can be approximated by a differentiable form. To overcome this limitation, we propose a motion planning method based on Model Predictive Path Integral (MPPI) control, enabling navigation through arbitrarily shaped obstacles by switching between driving and flight modes. To handle the instability and rapid solution changes caused by mode switching, our proposed method switches the control space and utilizes the auxiliary controller for MPPI. Our simulation results demonstrate that the proposed method enables navigation in unstructured environments and achieves effective obstacle avoidance through mode switching.

arxiv情報

著者 Gosuke Kojima,Kohei Honda,Satoshi Nakano,Manabu Yamada
発行日 2025-03-20 21:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

要約

言語の統合と3D認識は、物理的な世界を理解し、相互作用する具体化されたエージェントとロボットにとって重要です。
大規模な言語モデル(LLM)は印象的な言語の理解と生成能力を実証していますが、3D環境(3D-LLM)への適応は初期段階に残っています。
主な課題は、言語と3Dシーンの間に密集した接地を持つ大規模なデータセットがないことです。
3Dグランドを紹介します。これは、40,087の家庭用シーンと620万の密集したシーン言語の指示を組み合わせた先駆的な大規模なデータセットを紹介します。
我々の結果は、3D粒を使用した指示の調整により、接地能力が大幅に向上し、3D-LLMの幻覚が減少することが示されています。
貢献の一環として、3D-LLMの幻覚を体系的に評価し、モデルの公正な比較を可能にするための包括的なベンチマーク3Dポープを提案します。
私たちの実験は、データセットサイズと3D-LLMパフォーマンスの間のスケーリング効果を強調し、具体化されたAI研究のための大規模な3Dテキストデータセットの重要性を強調しています。
我々の結果は、効果的なSIMからリアルへの移転の初期シグナルを示しており、大規模な合成データでトレーニングされたモデルが実際の3Dスキャンでうまく機能することを示しています。
3Dグランドと3Dポープを通じて、具体化されたAIコミュニティにリソースと洞察を装備して、より信頼性が高く、より良く根拠のある3D-LLMにつながることを目指しています。
プロジェクトWebサイト:https://3d-grand.github.io

要約(オリジナル)

The integration of language and 3D perception is crucial for embodied agents and robots that comprehend and interact with the physical world. While large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, their adaptation to 3D environments (3D-LLMs) remains in its early stages. A primary challenge is a lack of large-scale datasets with dense grounding between language and 3D scenes. We introduce 3D-GRAND, a pioneering large-scale dataset comprising 40,087 household scenes paired with 6.2 million densely-grounded scene-language instructions. Our results show that instruction tuning with 3D-GRAND significantly enhances grounding capabilities and reduces hallucinations in 3D-LLMs. As part of our contributions, we propose a comprehensive benchmark 3D-POPE to systematically evaluate hallucination in 3D-LLMs, enabling fair comparisons of models. Our experiments highlight a scaling effect between dataset size and 3D-LLM performance, emphasizing the importance of large-scale 3D-text datasets for embodied AI research. Our results demonstrate early signals for effective sim-to-real transfer, indicating that models trained on large synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and 3D-POPE, we aim to equip the embodied AI community with resources and insights to lead to more reliable and better-grounded 3D-LLMs. Project website: https://3d-grand.github.io

arxiv情報

著者 Jianing Yang,Xuweiyi Chen,Nikhil Madaan,Madhavan Iyengar,Shengyi Qian,David F. Fouhey,Joyce Chai
発行日 2025-03-20 23:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントする

Displacement-Actuated Continuum Robots: A Joint Space Abstraction

要約

抽象化としての変位作動された連続ロボットは、クラーク変換との関係により、アプローチを大幅に簡素化および改善するための重要な抽象化として示されています。
さらなるポテンシャルを強調するために、ますます人気のある長さの拡張と活用されていないねじれを特徴とするこの抽象化を再検討して拡張します。
各拡張機能について、ジョイント値から関節スペースに埋め込まれたマニホールドのローカル座標への対応するマッピングが提供されます。
各マッピングは、そのコンパクトさと直線性によって特徴付けられます。

要約(オリジナル)

The displacement-actuated continuum robot as an abstraction has been shown as a key abstraction to significantly simplify and improve approaches due to its relation to the Clarke transform. To highlight further potentials, we revisit and extend this abstraction that features an increasingly popular length extension and an underutilized twisting. For each extension, the corresponding mapping from the joint values to the local coordinates of the manifold embedded in the joint spaces is provided. Each mapping is characterized by its compactness and linearity.

arxiv情報

著者 Reinhard M. Grassmann,Jessica Burgner-Kahrs
発行日 2025-03-21 01:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Robotic In-Hand Manipulation for Large-Range Precise Object Movement: The RGMC Champion Solution

要約

複数の器用な指を使用した手の操作は、大きな腕の動きへの依存を減らし、それによってスペースとエネルギーを節約できる重要なロボットスキルです。
この文字は、グラス内のオブジェクトの動きに焦点を当てています。これは、安定した把握内の指の動きのみを通じて、オブジェクトを望ましいポーズに操作することを指します。
重要な課題は、一定の安定した把握を維持しながら、高精度と大きな範囲の動きを同時に達成することにあります。
この問題に対処するために、現実世界のシナリオで新しいオブジェクトに簡単に適用できる、事前トレーニングやオブジェクトのジオメトリを必要とせずに、運動学的軌道の最適化に基づいて、単純で実用的なアプローチを提案します。
このアプローチを採用して、ICRA 2024で開催された第9回ロボットグラッシングおよび操作コンペティション(RGMC)で、ハンドマニピュレーショントラックのチャンピオンシップを獲得しました。
ビデオやコードを含む補足資料は、https://rgmc-xl-team.github.io/ingrasp_manipulationで入手できます。

要約(オリジナル)

In-hand manipulation using multiple dexterous fingers is a critical robotic skill that can reduce the reliance on large arm motions, thereby saving space and energy. This letter focuses on in-grasp object movement, which refers to manipulating an object to a desired pose through only finger motions within a stable grasp. The key challenge lies in simultaneously achieving high precision and large-range movements while maintaining a constant stable grasp. To address this problem, we propose a simple and practical approach based on kinematic trajectory optimization with no need for pretraining or object geometries, which can be easily applied to novel objects in real-world scenarios. Adopting this approach, we won the championship for the in-hand manipulation track at the 9th Robotic Grasping and Manipulation Competition (RGMC) held at ICRA 2024. Implementation details, discussion, and further quantitative experimental results are presented in this letter, which aims to comprehensively evaluate our approach and share our key takeaways from the competition. Supplementary materials including video and code are available at https://rgmc-xl-team.github.io/ingrasp_manipulation .

arxiv情報

著者 Mingrui Yu,Yongpeng Jiang,Chen Chen,Yongyi Jia,Xiang Li
発行日 2025-03-21 01:17:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems

要約

相互接続された長いシーケンスの家庭用タスクの実行を担当する具体化されたAIエージェントは、多くの場合、コンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーにつながります。
この問題に対処するために、長期および短期のメモリモジュールを統合する革新的なメモリシステムであるKarmaを紹介し、メモリの補強プロンプトを通じて具体化されたエージェントの計画のための大規模な言語モデル(LLMS)を強化します。
Karmaは長期記憶と短期記憶を区別し、長期メモリは環境の表現として包括的な3Dシーングラフをキャプチャし、短期メモリはオブジェクトの位置と状態の変化を動的に記録します。
このデュアルメモリ構造により、エージェントは関連する過去のシーンエクスペリエンスを取得し、それによりタスク計画の精度と効率を改善できます。
短期メモリは、効果的で適応的なメモリ置換のための戦略を採用しており、より少ないデータを破棄しながら重要な情報の保持を保証します。
メモリで強化された最先端の具体化されたエージェントと比較して、メモリ編成された具体化されたAIエージェントは、AI2-TORシミュレーター内の複合タスクと複雑なタスクでそれぞれ1.3倍と2.3倍の成功率を改善し、タスクの実行効率を3.4xおよび62.7x増加させます。
さらに、Karmaのプラグアンドプレイ機能により、モバイル操作プラットフォームなどの現実世界のロボットシステムへのシームレスな展開が可能になることを実証します。
作品の実験ビデオは、https://youtu.be/4bt7fnw9ehsにあります。
私たちのコードは、https://github.com/wzx0swarm0robotics/karma/tree/masterで入手できます。

要約(オリジナル)

Embodied AI agents responsible for executing interconnected, long-sequence household tasks often face difficulties with in-context memory, leading to inefficiencies and errors in task execution. To address this issue, we introduce KARMA, an innovative memory system that integrates long-term and short-term memory modules, enhancing large language models (LLMs) for planning in embodied agents through memory-augmented prompting. KARMA distinguishes between long-term and short-term memory, with long-term memory capturing comprehensive 3D scene graphs as representations of the environment, while short-term memory dynamically records changes in objects’ positions and states. This dual-memory structure allows agents to retrieve relevant past scene experiences, thereby improving the accuracy and efficiency of task planning. Short-term memory employs strategies for effective and adaptive memory replacement, ensuring the retention of critical information while discarding less pertinent data. Compared to state-of-the-art embodied agents enhanced with memory, our memory-augmented embodied AI agent improves success rates by 1.3x and 2.3x in Composite Tasks and Complex Tasks within the AI2-THOR simulator, respectively, and enhances task execution efficiency by 3.4x and 62.7x. Furthermore, we demonstrate that KARMA’s plug-and-play capability allows for seamless deployment on real-world robotic systems, such as mobile manipulation platforms.Through this plug-and-play memory system, KARMA significantly enhances the ability of embodied agents to generate coherent and contextually appropriate plans, making the execution of complex household tasks more efficient. The experimental videos from the work can be found at https://youtu.be/4BT7fnw9ehs. Our code is available at https://github.com/WZX0Swarm0Robotics/KARMA/tree/master.

arxiv情報

著者 Zixuan Wang,Bo Yu,Junzhe Zhao,Wenhao Sun,Sai Hou,Shuai Liang,Xing Hu,Yinhe Han,Yiming Gan
発行日 2025-03-21 01:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

BEAC: Imitating Complex Exploration and Task-oriented Behaviors for Invisible Object Nonprehensile Manipulation

要約

Imitation Learning(IL)を適用することは、埋もれた岩の掘削などの部分的な観測を備えた目に見えないオブジェクトの非緩和操作タスクに挑戦します。
デモンストレーターは、そのような複雑なアクション決定を行い、オブジェクトとタスク指向のアクションを見つけて、隠された状態を推定しなが​​らタスクを完了し、おそらく一貫性のないアクションデモンストレーションと高い認知負荷問題を引き起こす必要があります。
これらの問題については、人間の認知科学における研究は、デモ隊のための事前に設計された単純な探索規則の使用を促進することで、行動の矛盾と高い認知負荷の問題を軽減する可能性があることを示唆しています。
したがって、このような探索ルールを使用してデモンストレーションから模倣学習を実行する場合、デモ隊のタスク指向の動作だけでなく、部分的な観察下でのモードスイッチング動作(探索的またはタスク指向の動作)を正確に模倣することが重要です。
上記の考慮事項に基づいて、このペーパーでは、事前に設計された探索ポリシーと過去の歴史に基づいて推定された信念状態に基づいて訓練されたタスク指向のアクションポリシーとの間の切り替えポリシー構造を持つ信念探査アクションクローニング(BEAC)と呼ばれる新しい模倣学習フレームワークを提案します。
シミュレーションおよび実際のロボット実験では、提案された方法が、ユーザー調査で示されたデモンストレーションの認知負荷を減らしながら、最高のタスクパフォ​​ーマンス、より高いモード、およびアクション予測の精度を達成したことを確認しました。

要約(オリジナル)

Applying imitation learning (IL) is challenging to nonprehensile manipulation tasks of invisible objects with partial observations, such as excavating buried rocks. The demonstrator must make such complex action decisions as exploring to find the object and task-oriented actions to complete the task while estimating its hidden state, perhaps causing inconsistent action demonstration and high cognitive load problems. For these problems, work in human cognitive science suggests that promoting the use of pre-designed, simple exploration rules for the demonstrator may alleviate the problems of action inconsistency and high cognitive load. Therefore, when performing imitation learning from demonstrations using such exploration rules, it is important to accurately imitate not only the demonstrator’s task-oriented behavior but also his/her mode-switching behavior (exploratory or task-oriented behavior) under partial observation. Based on the above considerations, this paper proposes a novel imitation learning framework called Belief Exploration-Action Cloning (BEAC), which has a switching policy structure between a pre-designed exploration policy and a task-oriented action policy trained on the estimated belief states based on past history. In simulation and real robot experiments, we confirmed that our proposed method achieved the best task performance, higher mode and action prediction accuracies, while reducing the cognitive load in the demonstration indicated by a user study.

arxiv情報

著者 Hirotaka Tahara,Takamitsu Matsubara
発行日 2025-03-21 02:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation

要約

非構造化されていない環境では、薄すぎたり、大きく、または把握したりしないオブジェクトを処理するには、非緩和操作が重要です。
従来の計画ベースのアプローチは複雑な接触モデリングと闘っていますが、学習ベースの方法は最近、有望な代替手段として浮上しています。
ただし、既存の学習ベースのアプローチは2つの主要な制限に直面しています。マルチビューカメラと正確なポーズ追跡に大きく依存しており、オブジェクトの質量やテーブル摩擦の変化など、さまざまな物理的条件にわたって一般化できません。
これらの課題に対処するために、歴史的軌跡に基づいてダイナミクスのバリエーションに適応しながら将来の状態を共同で予測することにより、アクション学習を強化する新しいフレームワークであるダイナミクス適応ワールドアクションモデル(DYWA)を提案します。
ジオメトリ、状態、物理学、およびロボットアクションのモデリングを統合することにより、Dywaは、部分的な観察性の下でより堅牢なポリシー学習を可能にします。
ベースラインと比較して、私たちの方法は、シミュレーションでシングルビューポイントクラウド観測のみを使用して、成功率を31.5%改善します。
さらに、DYWAは、実際の実験で平均成功率68%を達成し、多様なオブジェクトのジオメトリ全体で一般化し、さまざまなテーブル摩擦に適応し、半分充填水のボトルや滑りやすい表面などの挑戦的なシナリオに堅牢性に適応する能力を実証します。

要約(オリジナル)

Nonprehensile manipulation is crucial for handling objects that are too thin, large, or otherwise ungraspable in unstructured environments. While conventional planning-based approaches struggle with complex contact modeling, learning-based methods have recently emerged as a promising alternative. However, existing learning-based approaches face two major limitations: they heavily rely on multi-view cameras and precise pose tracking, and they fail to generalize across varying physical conditions, such as changes in object mass and table friction. To address these challenges, we propose the Dynamics-Adaptive World Action Model (DyWA), a novel framework that enhances action learning by jointly predicting future states while adapting to dynamics variations based on historical trajectories. By unifying the modeling of geometry, state, physics, and robot actions, DyWA enables more robust policy learning under partial observability. Compared to baselines, our method improves the success rate by 31.5% using only single-view point cloud observations in the simulation. Furthermore, DyWA achieves an average success rate of 68% in real-world experiments, demonstrating its ability to generalize across diverse object geometries, adapt to varying table friction, and robustness in challenging scenarios such as half-filled water bottles and slippery surfaces.

arxiv情報

著者 Jiangran Lyu,Ziming Li,Xuesong Shi,Chaoyi Xu,Yizhou Wang,He Wang
発行日 2025-03-21 02:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする