From CAD to URDF: Co-Design of a Jet-Powered Humanoid Robot Including CAD Geometry

要約

共同設計の最適化戦略は通常、CAD から抽出された単純化されたロボット モデルに依存します。
これらのモデルは、ロボット制御の幾何学的パラメーターと慣性パラメーターを最適化するのに役立ちますが、最適化された機械設計のプロトタイピングに不可欠な重要な詳細を見落とす可能性があります。
たとえば、最適化された形状やアセンブリレベルの設計の複雑さにかかる機械的応力を考慮していない可能性があります。
この論文では、ロボットの制御性能と機械設計の両方を向上させることを目的とした共同設計フレームワークを紹介します。
具体的には、制御性能に大きな影響を与えるロボットリンクを特定します。
これらのリンクの幾何学的特性は、多目的進化アルゴリズムを使用してパラメータ化および最適化され、最適な制御パフォーマンスを実現します。
さらに、自動化された有限要素法 (FEM) 解析がフレームワークに統合されており、必要な構造的安全マージンを満たさないソリューションをフィルタリングします。
ジェット動力の人型ロボット iRonCub の飛行性能のための機械設計を強化するためにフレームワークを適用することで、フレームワークを検証します。

要約(オリジナル)

Co-design optimization strategies usually rely on simplified robot models extracted from CAD. While these models are useful for optimizing geometrical and inertial parameters for robot control, they might overlook important details essential for prototyping the optimized mechanical design. For instance, they may not account for mechanical stresses exerted on the optimized geometries and the complexity of assembly-level design. In this paper, we introduce a co-design framework aimed at improving both the control performance and mechanical design of our robot. Specifically, we identify the robot links that significantly influence control performance. The geometric characteristics of these links are parameterized and optimized using a multi-objective evolutionary algorithm to achieve optimal control performance. Additionally, an automated Finite Element Method (FEM) analysis is integrated into the framework to filter solutions not satisfying the required structural safety margin. We validate the framework by applying it to enhance the mechanical design for flight performance of the jet-powered humanoid robot iRonCub.

arxiv情報

著者 Punith Reddy Vanteddu,Gabriele Nava,Fabio Bergonti,Giuseppe L’Erario,Antonello Paolino,Daniele Pucci
発行日 2024-10-11 08:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | From CAD to URDF: Co-Design of a Jet-Powered Humanoid Robot Including CAD Geometry はコメントを受け付けていません

SPA: 3D Spatial-Awareness Enables Effective Embodied Representation

要約

この論文では、身体化された AI における 3D 空間認識の重要性を強調する新しい表現学習フレームワークである SPA を紹介します。
私たちのアプローチは、マルチビュー画像に対する微分可能なニューラル レンダリングを利用して、バニラ ビジョン トランスフォーマー (ViT) に本質的な空間理解を与えます。
シングルタスクと言語条件付きマルチタスクの両方のシナリオで、多様なポリシーを持つ 8 つのシミュレーターにわたる 268 のタスクをカバーする、これまでの身体表現学習の最も包括的な評価を示します。
その結果は説得力があります。SPA は、より少ないトレーニング データを使用しながら、具体化された AI、ビジョン中心のタスク、マルチモーダル アプリケーション向けに特別に設計されたものなど、10 を超える最先端の表現方法を常に上回っています。
さらに、実際のシナリオでの有効性を確認するために一連の実際の実験を実施します。
これらの結果は、身体表現学習における 3D 空間認識の重要な役割を強調しています。
私たちの最強のモデルのトレーニングには 6000 GPU 時間以上かかります。私たちは、身体表現学習における将来の研究を促進するために、すべてのコードとモデルの重みをオープンソース化することに取り組んでいます。
プロジェクトページ: https://haoyizhu.github.io/spa/。

要約(オリジナル)

In this paper, we introduce SPA, a novel representation learning framework that emphasizes the importance of 3D spatial awareness in embodied AI. Our approach leverages differentiable neural rendering on multi-view images to endow a vanilla Vision Transformer (ViT) with intrinsic spatial understanding. We present the most comprehensive evaluation of embodied representation learning to date, covering 268 tasks across 8 simulators with diverse policies in both single-task and language-conditioned multi-task scenarios. The results are compelling: SPA consistently outperforms more than 10 state-of-the-art representation methods, including those specifically designed for embodied AI, vision-centric tasks, and multi-modal applications, while using less training data. Furthermore, we conduct a series of real-world experiments to confirm its effectiveness in practical scenarios. These results highlight the critical role of 3D spatial awareness for embodied representation learning. Our strongest model takes more than 6000 GPU hours to train and we are committed to open-sourcing all code and model weights to foster future research in embodied representation learning. Project Page: https://haoyizhu.github.io/spa/.

arxiv情報

著者 Haoyi Zhu,Honghui Yang,Yating Wang,Jiange Yang,Limin Wang,Tong He
発行日 2024-10-11 08:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SPA: 3D Spatial-Awareness Enables Effective Embodied Representation はコメントを受け付けていません

Lean Methodology for Garment Modernization

要約

衣服の近代化のための無駄のない方法論。
この記事では、リーン思考、リーン実践、自動化開発、VSM、CRP に焦点を当てて、衣料品製造を近代化するためのリーンな方法論と、それらを効果的に統合する方法を紹介します。
特定の作業を個別に自動化すると効率が向上し、サイクル タイムが短縮されますが、衣類全体の生産高と効率が必ずしも向上するとは限りません。
これらの広範な改善を達成するには、VSM と CRP を使用して生産ラインとプロセス全体を検討し、生産とセンターのバランスを最適化することが不可欠です。
このアプローチにより、効率が向上し、製造コスト、労働時間、リードタイムが削減され、最終的には会社と工場の価値が高まります。

要約(オリジナル)

Lean Methodology for Garment Modernization. This article presents the lean methodology for modernizing garment manufacturing, focusing on lean thinking, lean practices, automation development, VSM, and CRP, and how to integrate them effectively. While isolated automation of specific operations can improve efficiency and reduce cycle time, it does not necessarily enhance overall garment output and efficiency. To achieve these broader improvements, it is essential to consider the entire production line and process using VSM and CRP to optimize production and center balance. This approach can increase efficiency, and reduce manufacturing costs, labor time, and lead time, ultimately adding value to the company and factory.

arxiv情報

著者 Ray Wai Man Kong,Theodore Ho Tin Kong,Tianxu Huang
発行日 2024-10-11 03:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Lean Methodology for Garment Modernization はコメントを受け付けていません

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

要約

多様で動的な環境で動作する汎用性の高いロボット システムに対する需要が高まっているため、大規模な実施形態にまたがるデータ コーパスを活用して広範な適応性と高度な推論を促進するジェネラリスト ポリシーの重要性が強調されています。
ただし、ジェネラリストは非効率な推論とコストのかかるトレーニングに苦労するでしょう。
代わりに、スペシャリスト ポリシーは特定のドメイン データ用に厳選されており、タスク レベルの精度と効率性に優れています。
しかし、広範囲のアプリケーションに対する一般化能力が欠けています。
これらの観察に触発されて、ジェネラリスト ポリシーとスペシャリスト ポリシーの両方のメリットを補完する相乗効果のあるデュアル システムである RoboDual を紹介します。
拡散トランスフォーマーベースのスペシャリストは、ビジョン言語アクション (VLA) ベースのジェネラリストの高レベルのタスク理解と離散化されたアクション出力を絶妙に条件付けた、複数ステップのアクションのロールアウト用に考案されています。
OpenVLA と比較して、RoboDual は、トレーニング可能なパラメーターがわずか 2,000 万個の専門ポリシーを導入することにより、現実世界の設定で 26.7% の改善と、CALVIN で 12% の向上を達成しました。
5% のデモンストレーション データのみで強力なパフォーマンスを維持し、実際の展開では 3.8 倍高い制御頻度を可能にします。
コードは公開される予定です。
私たちのプロジェクト ページは https://opendrivelab.com/RoboDual/ でホストされています。

要約(オリジナル)

The increasing demand for versatile robotic systems to operate in diverse and dynamic environments has emphasized the importance of a generalist policy, which leverages a large cross-embodiment data corpus to facilitate broad adaptability and high-level reasoning. However, the generalist would struggle with inefficient inference and cost-expensive training. The specialist policy, instead, is curated for specific domain data and excels at task-level precision with efficiency. Yet, it lacks the generalization capacity for a wide range of applications. Inspired by these observations, we introduce RoboDual, a synergistic dual-system that supplements the merits of both generalist and specialist policy. A diffusion transformer-based specialist is devised for multi-step action rollouts, exquisitely conditioned on the high-level task understanding and discretized action output of a vision-language-action (VLA) based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in real-world setting and 12% gain on CALVIN by introducing a specialist policy with merely 20M trainable parameters. It maintains strong performance with 5% of demonstration data only, and enables a 3.8 times higher control frequency in real-world deployment. Code would be made publicly available. Our project page is hosted at: https://opendrivelab.com/RoboDual/

arxiv情報

著者 Qingwen Bu,Hongyang Li,Li Chen,Jisong Cai,Jia Zeng,Heming Cui,Maoqing Yao,Yu Qiao
発行日 2024-10-11 05:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation はコメントを受け付けていません

Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、数学的推論機能が大幅に進歩しました。
ただし、GSM8K や MATH などの既存のベンチマークは現在、高精度で解決されており (たとえば、OpenAI o1 は MATH データセットで 94.8% を達成)、これらのモデルに真に挑戦するには不十分であることが示されています。
このギャップを埋めるために、私たちは、LLM の数学的推論をオリンピックレベルで評価するために特別に設計された、包括的で挑戦的なベンチマークを提案します。
既存のオリンピック関連のベンチマークとは異なり、私たちのデータセットは数学のみに焦点を当てており、厳密な人による注釈が付いた 4,428 個の競技レベルの問題の膨大なコレクションで構成されています。
これらの問題は 33 以上のサブドメインに細心の注意を払って分類されており、10 以上の異なる難易度にまたがっており、オリンピックの数学的推論におけるモデルのパフォーマンスの総合的な評価を可能にしています。
さらに、このベンチマークに基づいて詳細な分析を実施しました。
私たちの実験結果は、最も先進的なモデルである OpenAI o1-mini と OpenAI o1-preview でさえ、60.54% と 52.55% の精度で非常に難しいオリンピック レベルの問題に苦戦していることを示しており、オリンピック レベルの数学的推論における重大な課題を浮き彫りにしています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have led to significant breakthroughs in mathematical reasoning capabilities. However, existing benchmarks like GSM8K or MATH are now being solved with high accuracy (e.g., OpenAI o1 achieves 94.8% on MATH dataset), indicating their inadequacy for truly challenging these models. To bridge this gap, we propose a comprehensive and challenging benchmark specifically designed to assess LLMs’ mathematical reasoning at the Olympiad level. Unlike existing Olympiad-related benchmarks, our dataset focuses exclusively on mathematics and comprises a vast collection of 4428 competition-level problems with rigorous human annotation. These problems are meticulously categorized into over 33 sub-domains and span more than 10 distinct difficulty levels, enabling a holistic assessment of model performance in Olympiad-mathematical reasoning. Furthermore, we conducted an in-depth analysis based on this benchmark. Our experimental results show that even the most advanced models, OpenAI o1-mini and OpenAI o1-preview, struggle with highly challenging Olympiad-level problems, with 60.54% and 52.55% accuracy, highlighting significant challenges in Olympiad-level mathematical reasoning.

arxiv情報

著者 Bofei Gao,Feifan Song,Zhe Yang,Zefan Cai,Yibo Miao,Qingxiu Dong,Lei Li,Chenghao Ma,Liang Chen,Runxin Xu,Zhengyang Tang,Benyou Wang,Daoguang Zan,Shanghaoran Quan,Ge Zhang,Lei Sha,Yichang Zhang,Xuancheng Ren,Tianyu Liu,Baobao Chang
発行日 2024-10-11 03:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models はコメントを受け付けていません

On the Feedback Law in Stochastic Optimal Nonlinear Control

要約

非線形確率的最適制御の問題を考察する。
この問題は、ベルマンの「次元の呪い」により、根本的に解決が難しいと考えられています。
モデル予測制御 (MPC) と同様に、現在の状態から徐々に期間が短くなる開ループの決定論的問題を繰り返し解くと、$O(\epsilon^4)$ に近いフィードバック ポリシーが得られることを示す結果を提示します。
ここで、$\epsilon$ はノイズを変調する摂動パラメータです。
また、最適決定論的フィードバック問題には、フィードバック則の高次項が低次項に影響を与えないような摂動構造があり、この構造は最適確率的フィードバック問題では失われることも示します。
したがって、確率的動的計画法の問題を解くことは、低次元の問題であってもノイズの影響を非常に受けやすく、実際には、MPC タイプのフィードバック則は、高いノイズ レベルでも優れたパフォーマンスを提供します。

要約(オリジナル)

We consider the problem of nonlinear stochastic optimal control. This problem is thought to be fundamentally intractable owing to Bellman’s ‘curse of dimensionality’. We present a result that shows that repeatedly solving an open-loop deterministic problem from the current state with progressively shorter horizons, similar to Model Predictive Control (MPC), results in a feedback policy that is $O(\epsilon^4)$ near to the true global stochastic optimal policy, where $\epsilon$ is a perturbation parameter modulating the noise. We also show that the optimal deterministic feedback problem has a perturbation structure such that higher-order terms of the feedback law do not affect lower-order terms and that this structure is lost in the optimal stochastic feedback problem. Consequently, solving the Stochastic Dynamic Programming problem is highly susceptible to noise, even in low dimensional problems, and in practice, the MPC-type feedback law offers superior performance even for high noise levels.

arxiv情報

著者 Mohamed Naveed Gul Mohamed,Suman Chakravorty,Raman Goyal,Ran Wang
発行日 2024-10-10 17:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | On the Feedback Law in Stochastic Optimal Nonlinear Control はコメントを受け付けていません

Open-Vocabulary Action Localization with Iterative Visual Prompting

要約

ビデオ アクションのローカリゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としています。
既存の学習ベースのアプローチは成功していますが、ビデオに注釈を付ける必要があり、それにはかなりの人件費がかかります。
この論文では、新たに登場した既製のビジョン言語モデル (VLM) に基づいた、学習不要でオープンな語彙アプローチを提案します。
この課題は、VLM が長いビデオを処理するように設計されておらず、アクションを見つけるように調整されていないという事実に起因しています。
私たちは、反復的な視覚的プロンプト手法を拡張することで、これらの問題を解決します。
具体的には、ビデオ フレームをサンプリングし、フレーム インデックス ラベルを含む連結画像を作成し、VLM にアクションの開始と終了に最も近いと考えられるフレームを推測させます。
サンプリング時間ウィンドウを狭めてこのプロセスを繰り返すと、アクションの開始と終了に対応する特定のフレームが見つかります。
この手法が合理的なパフォーマンスをもたらし、最先端のゼロショット アクション ローカリゼーションに匹敵する結果が得られることを実証します。
これらの結果は、ビデオを理解するための VLM の実用的な拡張を示しています。
サンプル コードは https://microsoft.github.io/VLM-Video-Action-Localization/ で入手できます。

要約(オリジナル)

Video action localization aims to find the timings of specific actions from a long video. Although existing learning-based approaches have been successful, they require annotating videos, which comes with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLMs). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames and create a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start and end of the action. Iterating this process by narrowing a sampling time window results in finding the specific frames corresponding to the start and end of an action. We demonstrate that this technique yields reasonable performance, achieving results comparable to state-of-the-art zero-shot action localization. These results illustrate a practical extension of VLMs for understanding videos. A sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/.

arxiv情報

著者 Naoki Wake,Atsushi Kanehira,Kazuhiro Sasabuchi,Jun Takamatsu,Katsushi Ikeuchi
発行日 2024-10-10 07:22:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Open-Vocabulary Action Localization with Iterative Visual Prompting はコメントを受け付けていません

Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots

要約

人体の筋肉は、ミオシン フィラメントとアクチン フィラメントで構成される小さなアクチュエーターで構成されています。
接触力や環境からの変形を受けて、曲面や平坦などのさまざまな形状に力を及ぼすことができます。
一方で、これまで筋骨格系ロボットの筋肉は、そのような形状や環境で力を生み出すことが困難でした。
この問題に対処するために、私たちは筋骨格ロボット用の人工筋肉であるパターン構造筋 (PSM) を提案します。
PSM は、異方性特性を持つパターン構造、ワイヤー駆動機構を利用しており、FDM 3D プリンティングを使用した柔軟な素材の熱可塑性ポリウレタン (TPU) で作られています。
この方法により、単純な 1 自由度 (DOF) の筋肉、多自由度の広範囲の筋肉、関節を覆う筋肉、分岐した筋肉など、さまざまな形状の筋肉を作成できます。
私たちは、これらの筋肉を使用して、重い物体を持ち上げたり、環境接触による動作など、幅広い動作を発揮する上腕構造を作成しました。
これらの実験は、提案された PSM がさまざまな形状および環境で動作可能であり、筋骨格ロボットの筋肉に適していることを示しています。

要約(オリジナル)

Muscles of the human body are composed of tiny actuators made up of myosin and actin filaments. They can exert force in various shapes such as curved or flat, under contact forces and deformations from the environment. On the other hand, muscles in musculoskeletal robots so far have faced challenges in generating force in such shapes and environments. To address this issue, we propose Patterned Structure Muscle (PSM), artificial muscles for musculoskeletal robots. PSM utilizes patterned structures with anisotropic characteristics, wire-driven mechanisms, and is made of flexible material Thermoplastic Polyurethane (TPU) using FDM 3D printing. This method enables the creation of various shapes of muscles, such as simple 1 degree-of-freedom (DOF) muscles, Multi-DOF wide area muscles, joint-covering muscles, and branched muscles. We created an upper arm structure using these muscles to demonstrate wide range of motion, lifting heavy objects, and movements through environmental contact. These experiments show that the proposed PSM is capable of operating in various shapes and environments, and is suitable for the muscles of musculoskeletal robots.

arxiv情報

著者 Shunnosuke Yoshimura,Akihiro Miki,Kazuhiro Miyama,Yuta Sahara,Kento Kawaharazuka,Kei Okada,Masayuki Inaba
発行日 2024-10-10 07:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots はコメントを受け付けていません

The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control

要約

過去 10 年間、データ駆動型のアプローチは、未知または不確実な飛行条件への適応を容易にする能力のおかげで、クワッドローター制御の一般的な選択肢となりました。
さまざまなデータ駆動型パラダイムの中で、深層強化学習 (DRL) は現在最も研究されているパラダイムの 1 つです。
ただし、超小型航空機 (MAV) 用の DRL エージェントの設計は未解決の課題のままです。
いくつかの研究では、これらのエージェントの出力構成 (つまり、どのような種類の制御を計算するか) を研究していますが、これらのアプローチが採用すべき入力データのタイプについては一般的なコンセンサスはありません。
複数の作業は、DRL エージェントに完全な状態情報を提供するだけであり、これが冗長で学習プロセスを不必要に複雑にする可能性があるかどうか、または実際のプラットフォームでのそのような情報の利用可能性に余分な制約を課す可能性があるかどうかについて疑問を抱くことはありません。
この作業では、観察空間のさまざまな構成の詳細なベンチマーク分析を提供します。
私たちは、さまざまな入力を選択してシミュレートされた環境で複数の DRL エージェントを最適化し、その堅牢性とゼロショット適応によるシミュレーションからリアルへの転送機能を研究します。
私たちは、広範な実験結果によって裏付けられたこの研究で提示された結果と議論は、空中ロボットタスク用の DRL エージェントの開発に関する将来の研究を導く上で重要なマイルストーンとなる可能性があると信じています。

要約(オリジナル)

In the last decade, data-driven approaches have become popular choices for quadrotor control, thanks to their ability to facilitate the adaptation to unknown or uncertain flight conditions. Among the different data-driven paradigms, Deep Reinforcement Learning (DRL) is currently one of the most explored. However, the design of DRL agents for Micro Aerial Vehicles (MAVs) remains an open challenge. While some works have studied the output configuration of these agents (i.e., what kind of control to compute), there is no general consensus on the type of input data these approaches should employ. Multiple works simply provide the DRL agent with full state information, without questioning if this might be redundant and unnecessarily complicate the learning process, or pose superfluous constraints on the availability of such information in real platforms. In this work, we provide an in-depth benchmark analysis of different configurations of the observation space. We optimize multiple DRL agents in simulated environments with different input choices and study their robustness and their sim-to-real transfer capabilities with zero-shot adaptation. We believe that the outcomes and discussions presented in this work supported by extensive experimental results could be an important milestone in guiding future research on the development of DRL agents for aerial robot tasks.

arxiv情報

著者 Alberto Dionigi,Gabriele Costante,Giuseppe Loianno
発行日 2024-10-10 07:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control はコメントを受け付けていません

PokeFlex: A Real-World Dataset of Deformable Objects for Robotics

要約

データ駆動型の手法は、困難な操作タスクを解決する上で大きな可能性を示していますが、変形可能なオブジェクトの領域での応用は、データ不足によって部分的に制限されてきました。
これに対処するために、私たちは PokeFlex を提案します。これは、3D テクスチャ メッシュ、点群、RGB 画像、深度マップを含む、現実世界のペアと注釈付きのマルチモーダル データを特徴とするデータセットです。
このようなデータは、オンライン 3D メッシュ再構成などのいくつかの下流タスクに活用でき、メッシュ シミュレーションに基づく従来の制御手法の実世界への展開など、未開発のアプリケーションを可能にする可能性があります。
現実世界の 3D メッシュ再構成によってもたらされる課題に対処するために、完全な 360{\deg} 再構成を可能にする専門的なボリューム キャプチャ システムを活用しています。
PokeFlex は、さまざまな硬さと形状を持つ 18 個の変形可能なオブジェクトで構成されています。
変形は、物体を平らな面に落としたり、ロボットアームで物体を突いたりすることによって生成されます。
後者の場合の相互作用力とトルクも報告されます。
さまざまなデータ モダリティを使用して、オンライン 3D メッシュ再構築における PokeFlex データセットの使用例を実証しました。
データセットのデモと例については、当社の Web サイト ( https://pokeflex-dataset.github.io/ ) を参照してください。

要約(オリジナル)

Data-driven methods have shown great potential in solving challenging manipulation tasks, however, their application in the domain of deformable objects has been constrained, in part, by the lack of data. To address this, we propose PokeFlex, a dataset featuring real-world paired and annotated multimodal data that includes 3D textured meshes, point clouds, RGB images, and depth maps. Such data can be leveraged for several downstream tasks such as online 3D mesh reconstruction, and it can potentially enable underexplored applications such as the real-world deployment of traditional control methods based on mesh simulations. To deal with the challenges posed by real-world 3D mesh reconstruction, we leverage a professional volumetric capture system that allows complete 360{\deg} reconstruction. PokeFlex consists of 18 deformable objects with varying stiffness and shapes. Deformations are generated by dropping objects onto a flat surface or by poking the objects with a robot arm. Interaction forces and torques are also reported for the latter case. Using different data modalities, we demonstrated a use case for the PokeFlex dataset in online 3D mesh reconstruction. We refer the reader to our website ( https://pokeflex-dataset.github.io/ ) for demos and examples of our dataset.

arxiv情報

著者 Jan Obrist,Miguel Zamora,Hehui Zheng,Ronan Hinchet,Firat Ozdemir,Juan Zarate,Robert K. Katzschmann,Stelian Coros
発行日 2024-10-10 07:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PokeFlex: A Real-World Dataset of Deformable Objects for Robotics はコメントを受け付けていません