ContactSDF: Signed Distance Functions as Multi-Contact Models for Dexterous Manipulation

要約

このホワイトペーパーでは、ContactSDFを提案します。これは、署名された距離関数(SDF)を使用して、衝突検出とタイムステップルーチンの両方を含むマルチコンタクトモデルを近似する方法です。
contactSDFは、最初に衝突検出のためのオブジェクトのサポート平面表現を使用してSDFを確立し、次に生成された接点デュアルコーンを使用して、次の状態の時間ステップ予測のために2番目のSDFを構築します。
これらの2つのSDFは、状態予測のための微分可能で閉じた形式のマルチコンタクト動的モデルを作成し、接触豊富な操作のための効率的なモデル学習と最適化を可能にします。
モデル学習のためのcontactSDFの有効性と器用な操作のリアルタイム制御を示すために、広範なシミュレーション実験を実行します。
さらに、オンパームの再配向タスクのために、ハードウェアアレグロの手でcontactSDFを評価します。
結果は、ハードウェアで約2分間の学習で示されており、ContactSDFは30〜60Hzの周波数で高品質の器用な操作を実現します。
プロジェクトページhttps://yangwen-102.github.io/contactsdf.github.io/

要約(オリジナル)

In this paper, we propose ContactSDF, a method that uses signed distance functions (SDFs) to approximate multi-contact models, including both collision detection and time-stepping routines. ContactSDF first establishes an SDF using the supporting plane representation of an object for collision detection, and then uses the generated contact dual cones to build a second SDF for time-stepping prediction of the next state. Those two SDFs create a differentiable and closed-form multi-contact dynamic model for state prediction, enabling efficient model learning and optimization for contact-rich manipulation. We perform extensive simulation experiments to show the effectiveness of ContactSDF for model learning and real-time control of dexterous manipulation. We further evaluate the ContactSDF on a hardware Allegro hand for on-palm reorientation tasks. Results show with around 2 minutes of learning on hardware, the ContactSDF achieves high-quality dexterous manipulation at a frequency of 30-60Hz. Project page https://yangwen-1102.github.io/contactsdf.github.io/

arxiv情報

著者 Wen Yang,Wanxin Jin
発行日 2025-03-19 21:23:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ContactSDF: Signed Distance Functions as Multi-Contact Models for Dexterous Manipulation はコメントを受け付けていません

Safety Aware Task Planning via Large Language Models in Robotics

要約

大規模な言語モデル(LLMS)をロボットタスク計画に統合することで、複雑で長期のワークフローの推論能力が向上しました。
ただし、LLM駆動型計画の安全性を確保することは、リスク軽減よりもタスクの完了を優先することが多いため、LLM主導の計画の安全性を確保することは重要な課題のままです。
このペーパーでは、安全性の認識をロボットタスク計画に埋め込むために設計されたマルチLLMフレームワークであるSafer(安全性の高いフレームワーク)を紹介します。
Saferは、主要なタスクプランナーと並んで動作する安全エージェントを採用し、安全フィードバックを提供します。
Additionally, we introduce LLM-as-a-Judge, a novel metric leveraging LLMs as evaluators to quantify safety violations within generated task plans.
当社のフレームワークは、複数の実行段階で安全フィードバックを統合し、リアルタイムのリスク評価、積極的なエラー補正、透明な安全評価を可能にします。
また、制御バリア関数(CBFS)を使用して制御フレームワークを統合して、Saferのタスク計画内で安全保証を確保します。
不均一なロボットエージェントを含む複雑な長老タスクに関する最先端のLLMプランナーに対してより安全を評価し、タスクの効率を維持しながら安全違反を減らす際の有効性を示しました。
また、複数のロボットと人間を含む実際のハードウェア実験を通じて、タスクプランナーと安全プランナーを検証します。

要約(オリジナル)

The integration of large language models (LLMs) into robotic task planning has unlocked better reasoning capabilities for complex, long-horizon workflows. However, ensuring safety in LLM-driven plans remains a critical challenge, as these models often prioritize task completion over risk mitigation. This paper introduces SAFER (Safety-Aware Framework for Execution in Robotics), a multi-LLM framework designed to embed safety awareness into robotic task planning. SAFER employs a Safety Agent that operates alongside the primary task planner, providing safety feedback. Additionally, we introduce LLM-as-a-Judge, a novel metric leveraging LLMs as evaluators to quantify safety violations within generated task plans. Our framework integrates safety feedback at multiple stages of execution, enabling real-time risk assessment, proactive error correction, and transparent safety evaluation. We also integrate a control framework using Control Barrier Functions (CBFs) to ensure safety guarantees within SAFER’s task planning. We evaluated SAFER against state-of-the-art LLM planners on complex long-horizon tasks involving heterogeneous robotic agents, demonstrating its effectiveness in reducing safety violations while maintaining task efficiency. We also verify the task planner and safety planner through actual hardware experiments involving multiple robots and a human.

arxiv情報

著者 Azal Ahmad Khan,Michael Andrev,Muhammad Ali Murtaza,Sergio Aguilera,Rui Zhang,Jie Ding,Seth Hutchinson,Ali Anwar
発行日 2025-03-19 21:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Safety Aware Task Planning via Large Language Models in Robotics はコメントを受け付けていません

Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions

要約

2プレイヤーのリスクに敏感な衝突を回避する相互作用のためのナッシュ平衡ポリシーを学ぶ問題を検討します。
このような一般的な微分ゲームのハミルトン・ジャコビ・イサクス方程式をリアルタイムで解決することは、状態空間の平衡値の不連続性のために、オープンな挑戦です。
一般的な解決策は、特定のシステム状態とアクションの平衡ハミルトニアンに近いニューラルネットワークを学習することです。
ただし、学習は通常監視されており、衝突のリスクを軽減するために、さまざまな初期状態からの大量のサンプル平衡ポリシーが必要です。
このホワイトペーパーでは、平衡ポリシーのよりデータ効率の高い学習に対する2つの貢献を主張しています。まず、バリューネットワークを介してハミルトニアンを計算する代わりに、平衡回避がエージェントの損失機能を支配する場合、衝突回避がエージェントの損失機能を支配している場合、したがって学習するためのデータ効率であることを示します。
第二に、理論主導のアクティブ学習を導入してデータサンプリングをガイドします。ここでは、取得関数が予測された共同ステートのポントリアギンの最大原則へのコンプライアンスを測定します。
制御されていない交差点の場合、提案された方法は、同じデータ収集予算の下での最先端よりも平衡ポリシーのより一般化可能な近似につながり、衝突確率が低くなります。

要約(オリジナル)

We consider the problem of learning Nash equilibrial policies for two-player risk-sensitive collision-avoiding interactions. Solving the Hamilton-Jacobi-Isaacs equations of such general-sum differential games in real time is an open challenge due to the discontinuity of equilibrium values on the state space. A common solution is to learn a neural network that approximates the equilibrium Hamiltonian for given system states and actions. The learning, however, is usually supervised and requires a large amount of sample equilibrium policies from different initial states in order to mitigate the risks of collisions. This paper claims two contributions towards more data-efficient learning of equilibrium policies: First, instead of computing Hamiltonian through a value network, we show that the equilibrium co-states have simple structures when collision avoidance dominates the agents’ loss functions and system dynamics is linear, and therefore are more data-efficient to learn. Second, we introduce theory-driven active learning to guide data sampling, where the acquisition function measures the compliance of the predicted co-states to Pontryagin’s Maximum Principle. On an uncontrolled intersection case, the proposed method leads to more generalizable approximation of the equilibrium policies, and in turn, lower collision probabilities, than the state-of-the-art under the same data acquisition budget.

arxiv情報

著者 Lei Zhang,Siddharth Das,Tanner Merry,Wenlong Zhang,Yi Ren
発行日 2025-03-19 21:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.RO | Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions はコメントを受け付けていません

Experience-based Optimal Motion Planning Algorithm for Solving Difficult Planning Problems Using a Limited Dataset

要約

この研究は、限られたデータセットを一般化することにより、短い計算時間内に高品質のソリューションパスを取得するという重要な課題に対処することを目的としています。
情報に基づいたエクスペリエンス駆動型のランダムツリーConnect Star(IERTC*)プロセスでは、アルゴリズムは、再配線プロセスと情報に基づいたサンプリングプロセスを導入することでパスコストを削減しながら、単一のエクスペリエンスから生成されたマイクロパスをモーフィングすることにより、検索ツリーを柔軟に調査します。
このアルゴリズムの中心的なアイデアは、ローカル環境の複雑さに応じてさまざまな戦略を適用することです。
たとえば、検索ツリーの近くで障害物が密に配置されている場合、より複雑な曲線軌道を採用し、ローカル環境がまばらな場合はより単純な直線を採用します。
一般的なモーションベンチマークテストを使用した実験の結果は、IERTC*が散らかった環境での困難な問題の計画成功率を大幅に改善したことを明らかにしました(最先端のアルゴリズムと比較して49.3%の平均改善)と同時に、溶液コスト(56.3%の削減)が大幅に削減されました。
さらに、結果は、1つのエクスペリエンスしか利用できなかった場合でも、優れた計画パフォーマンスを示しました(成功率の43.8%の改善と、ソリューションコストの57.8%の削減)。

要約(オリジナル)

This study aims to address the key challenge of obtaining a high-quality solution path within a short calculation time by generalizing a limited dataset. In the informed experience-driven random trees connect star (IERTC*) process, the algorithm flexibly explores the search trees by morphing the micro paths generated from a single experience while reducing the path cost by introducing a re-wiring process and an informed sampling process. The core idea of this algorithm is to apply different strategies depending on the complexity of the local environment; for example, it adopts a more complex curved trajectory if obstacles are densely arranged near the search tree, and it adopts a simpler straight line if the local environment is sparse. The results of experiments using a general motion benchmark test revealed that IERTC* significantly improved the planning success rate in difficult problems in the cluttered environment (an average improvement of 49.3% compared to the state-of-the-art algorithm) while also significantly reducing the solution cost (a reduction of 56.3%) when using one hundred experiences. Furthermore, the results demonstrated outstanding planning performance even when only one experience was available (a 43.8% improvement in success rate and a 57.8% reduction in solution cost).

arxiv情報

著者 Ryota Takamido,Jun Ota
発行日 2025-03-19 21:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Experience-based Optimal Motion Planning Algorithm for Solving Difficult Planning Problems Using a Limited Dataset はコメントを受け付けていません

Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning

要約

Robotics Rewnection Learning(RL)は、多くの場合、慎重に設計された補助報酬に依存して、まばらな一次学習目標を補完して、大規模で現実世界の試行錯誤データの欠如を補正します。
これらの補助報酬は学習を加速しますが、重要なエンジニアリングの努力が必要であり、人間のバイアスを導入し、トレーニング中にロボットの進化する能力に適応することはできません。
このホワイトペーパーでは、Robotics RLの補助報酬適応を自動化する教師と学生のフレームワークである報酬トレーニングホイール(RTW)を紹介します。
具体的には、RTWの教師は、生徒の進化する機能に基づいて補助報酬の重みを動的に調整し、どの補助報酬の側面が主要な目的を改善するために多かれ少なかれ重点を置く必要があるかを判断します。
2つの挑戦的なロボットタスクでRTWを示します。非常に制約されたスペースでのナビゲーションと、垂直に挑戦する地形でのオフロード車の移動度です。
シミュレーションでは、RTWは、ナビゲーションの成功率でエキスパートが設計した報酬を2.35%上回り、オフロードモビリティのパフォーマンスを122.62%上回り、それぞれ35%と3倍のトレーニング効率を達成します。
物理的なロボット実験では、RTWの有効性をさらに検証し、完全な成功率(5/5試験対専門家が設計した報酬の2/5)を達成し、方向角度が最大47.4%減少して車両の安定性を改善します。

要約(オリジナル)

Robotics Reinforcement Learning (RL) often relies on carefully engineered auxiliary rewards to supplement sparse primary learning objectives to compensate for the lack of large-scale, real-world, trial-and-error data. While these auxiliary rewards accelerate learning, they require significant engineering effort, may introduce human biases, and cannot adapt to the robot’s evolving capabilities during training. In this paper, we introduce Reward Training Wheels (RTW), a teacher-student framework that automates auxiliary reward adaptation for robotics RL. To be specific, the RTW teacher dynamically adjusts auxiliary reward weights based on the student’s evolving capabilities to determine which auxiliary reward aspects require more or less emphasis to improve the primary objective. We demonstrate RTW on two challenging robot tasks: navigation in highly constrained spaces and off-road vehicle mobility on vertically challenging terrain. In simulation, RTW outperforms expert-designed rewards by 2.35% in navigation success rate and improves off-road mobility performance by 122.62%, while achieving 35% and 3X faster training efficiency, respectively. Physical robot experiments further validate RTW’s effectiveness, achieving a perfect success rate (5/5 trials vs. 2/5 for expert-designed rewards) and improving vehicle stability with up to 47.4% reduction in orientation angles.

arxiv情報

著者 Linji Wang,Tong Xu,Yuanjie Lu,Xuesu Xiao
発行日 2025-03-19 22:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning はコメントを受け付けていません

Cycloidal Quasi-Direct Drive Actuator Designs with Learning-based Torque Estimation for Legged Robotics

要約

このペーパーでは、脚のロボット工学用のシクロイド準ダイレクトドライブアクチュエーターの設計と実装を通じて、新しいアプローチを紹介します。
固有の高いトルク密度と機械的堅牢性を備えたサイクロイドギアメカニズムは、従来の設計よりも大きな利点を提供します。
サイクロイドギアを準ダイレクトドライブフレームワークに統合することにより、特に高トルクとダイナミック負荷を必要とするタスクで、脚のロボットのパフォーマンスを強化することを目指しています。
さらに、アクチュエータネットワークを使用してアクチュエーターのトルク推定フレームワークを開発し、Cycloidal Driveの複雑なダイナミクスによって導入されたSIMからリアルのギャップを効果的に削減します。
この統合は、サイクロイド駆動の複雑なダイナミクスをキャプチャするために重要です。これは、学習効率、俊敏性、および補強学習の適応性の向上に貢献します。

要約(オリジナル)

This paper presents a novel approach through the design and implementation of Cycloidal Quasi-Direct Drive actuators for legged robotics. The cycloidal gear mechanism, with its inherent high torque density and mechanical robustness, offers significant advantages over conventional designs. By integrating cycloidal gears into the Quasi-Direct Drive framework, we aim to enhance the performance of legged robots, particularly in tasks demanding high torque and dynamic loads, while still keeping them lightweight. Additionally, we develop a torque estimation framework for the actuator using an Actuator Network, which effectively reduces the sim-to-real gap introduced by the cycloidal drive’s complex dynamics. This integration is crucial for capturing the complex dynamics of a cycloidal drive, which contributes to improved learning efficiency, agility, and adaptability for reinforcement learning.

arxiv情報

著者 Alvin Zhu,Yusuke Tanaka,Fadi Rafeedi,Dennis Hong
発行日 2025-03-20 00:46:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Cycloidal Quasi-Direct Drive Actuator Designs with Learning-based Torque Estimation for Legged Robotics はコメントを受け付けていません

Mixed-Reality Digital Twins: Leveraging the Physical and Virtual Worlds for Hybrid Sim2Real Transition of Multi-Agent Reinforcement Learning Policies

要約

サイバー物理的車両システムのマルチエージェント補強学習(MARL)には、通常、それらの固有の複雑さのためにかなり長いトレーニング時間が必要です。
さらに、現実世界に訓練されたポリシーを展開するには、複数の物理的具体化されたエージェントとともに機能が豊富な環境が必要です。
この作業は、次のことができる混合現実性デジタルツインフレームワークを提示することにより、これらの問題点に対処しようとしています。
提案されたフレームワークの実行可能性とパフォーマンスは、2つの代表的なユースケースを通じて強調されています。これは、MARLの問題の競争力のあるクラスをカバーしています。
(i)トレーニング時間に対するエージェントと環境の並列化の影響、および(ii)両方のケーススタディにおけるゼロショットSIM2real転送に対する系統的ドメインランダム化の影響を研究します。
結果は、提案された並列化スキームとSIM2REALギャップが提案された展開方法を使用して2.9%という低いトレーニング時間の最大76.3%の短縮を示しています。

要約(オリジナル)

Multi-agent reinforcement learning (MARL) for cyber-physical vehicle systems usually requires a significantly long training time due to their inherent complexity. Furthermore, deploying the trained policies in the real world demands a feature-rich environment along with multiple physical embodied agents, which may not be feasible due to monetary, physical, energy, or safety constraints. This work seeks to address these pain points by presenting a mixed-reality digital twin framework capable of: (i) selectively scaling parallelized workloads on-demand, and (ii) evaluating the trained policies across simulation-to-reality (sim2real) experiments. The viability and performance of the proposed framework are highlighted through two representative use cases, which cover cooperative as well as competitive classes of MARL problems. We study the effect of: (i) agent and environment parallelization on training time, and (ii) systematic domain randomization on zero-shot sim2real transfer across both case studies. Results indicate up to 76.3% reduction in training time with the proposed parallelization scheme and sim2real gap as low as 2.9% using the proposed deployment method.

arxiv情報

著者 Chinmay Vilas Samak,Tanmay Vilas Samak,Venkat Narayan Krovi
発行日 2025-03-20 01:11:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO | Mixed-Reality Digital Twins: Leveraging the Physical and Virtual Worlds for Hybrid Sim2Real Transition of Multi-Agent Reinforcement Learning Policies はコメントを受け付けていません

AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models

要約

自律的な運転では、フリーフォームの応答には複雑なメトリックまたは主観的な人間の判断のいずれかが必要であるため、自律的な回答はしばしば信頼できない評価に苦しむことがよくあります。
この課題に対処するために、既存の駆動QAデータセット(Drivelm、Nuscenes-QA、およびLingoqaを含む)を構造化された多肢選択質問(MCQ)形式に変換する自動パイプラインであるAutoDrive-QAを導入します。
このベンチマークは、知覚、予測、および計画タスクを体系的に評価し、標準化された客観的な評価フレームワークを提供します。
AutoDrive-QAは、自律運転シナリオで一般的に見られるドメイン固有のエラーパターンに基づいて、大規模な言語モデル(LLM)を活用するために、大規模な言語モデル(LLM)を活用する自動化されたパイプラインを採用しています。
一般的な機能と一般化パフォーマンスの両方を評価するために、3つのパブリックデータセットでベンチマークをテストし、目に見えないデータセットでゼロショット実験を実施します。
ゼロショットの評価により、GPT-4Vは69.57%の精度でリードしていることが明らかになりました – 認識で74.94%、予測で65.33%、計画で68.45% – すべてのモデルが認識に優れている一方で、彼らは予測に苦労していることを示しています。
その結果、AutoDrive-QAは、さまざまな自律運転データセットにおけるさまざまな視覚言語モデルを統合および評価するための厳格で公平な標準を確立し、この分野での一般化を改善します。
AutoDrive-QA GitHubリポジトリのすべてのコードをリリースします。

要約(オリジナル)

In autonomous driving, open-ended question answering often suffers from unreliable evaluations because freeform responses require either complex metrics or subjective human judgment. To address this challenge, we introduce AutoDrive-QA, an automatic pipeline that converts existing driving QA datasets (including DriveLM, NuScenes-QA, and LingoQA) into a structured multiple-choice question (MCQ) format. This benchmark systematically assesses perception, prediction, and planning tasks, providing a standardized and objective evaluation framework. AutoDrive-QA employs an automated pipeline that leverages large language models (LLMs) to generate high-quality, contextually relevant distractors based on domain-specific error patterns commonly found in autonomous driving scenarios. To evaluate both general capabilities and generalization performance, we test the benchmark on three public datasets and conduct zero-shot experiments on an unseen dataset. The zero-shot evaluations reveal that GPT-4V leads with 69.57% accuracy — achieving 74.94% in Perception, 65.33% in Prediction, and 68.45% in Planning — demonstrating that while all models excel in Perception, they struggle in Prediction. Consequently, AutoDrive-QA establishes a rigorous, unbiased standard for integrating and evaluating different vision-language models across various autonomous driving datasets, thereby improving generalization in this field. We release all the codes in the AutoDrive-QA GitHub Repository.

arxiv情報

著者 Boshra Khalili,Andrew W. Smyth
発行日 2025-03-20 01:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models はコメントを受け付けていません

UAS Visual Navigation in Large and Unseen Environments via a Meta Agent

要約

この作業の目的は、無人の航空システム(UAS)が大規模な都市環境でナビゲートし、獲得した専門知識を新しい環境に移すことを効率的に学ぶことを可能にするアプローチを開発することです。
これを達成するために、メタカリキュラムトレーニングスキームを提案します。
まず、メタトレーニングにより、エージェントはマスターポリシーを学習してタスクを介して一般化できます。
結果のモデルは、ダウンストリームタスクで微調整されます。
トレーニングカリキュラムを階層的な方法で整理し、エージェントがターゲットタスクに向かって粗から罰金に導かれるようにします。
さらに、漸進的な学習とメタの強化学習(MRL)のアイデアを組み合わせたアルゴリズムである増分自己適応補強学習(ISAR)を紹介します。
特定のタスクのポリシーの取得に焦点を当てた従来の強化学習(RL)とは対照的に、MRLは、新しいタスクへの迅速な転送能力を備えたポリシーを学ぶことを目指しています。
ただし、MRLトレーニングプロセスは時間がかかりますが、提案されているISARアルゴリズムは、従来のMRLアルゴリズムよりも速い収束を実現します。
シミュレートされた環境で提案された方法論を評価し、このトレーニング哲学をISARアルゴリズムと組み合わせて使用​​すると、大規模都市のナビゲーションの収束速度と新しい環境での適応能力が大幅に向上することを実証します。

要約(オリジナル)

The aim of this work is to develop an approach that enables Unmanned Aerial System (UAS) to efficiently learn to navigate in large-scale urban environments and transfer their acquired expertise to novel environments. To achieve this, we propose a meta-curriculum training scheme. First, meta-training allows the agent to learn a master policy to generalize across tasks. The resulting model is then fine-tuned on the downstream tasks. We organize the training curriculum in a hierarchical manner such that the agent is guided from coarse to fine towards the target task. In addition, we introduce Incremental Self-Adaptive Reinforcement learning (ISAR), an algorithm that combines the ideas of incremental learning and meta-reinforcement learning (MRL). In contrast to traditional reinforcement learning (RL), which focuses on acquiring a policy for a specific task, MRL aims to learn a policy with fast transfer ability to novel tasks. However, the MRL training process is time consuming, whereas our proposed ISAR algorithm achieves faster convergence than the conventional MRL algorithm. We evaluate the proposed methodologies in simulated environments and demonstrate that using this training philosophy in conjunction with the ISAR algorithm significantly improves the convergence speed for navigation in large-scale cities and the adaptation proficiency in novel environments.

arxiv情報

著者 Yuci Han,Charles Toth,Alper Yilmaz
発行日 2025-03-20 01:44:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UAS Visual Navigation in Large and Unseen Environments via a Meta Agent はコメントを受け付けていません

Dynamic Layer Detection of a Thin Materials using DenseTact Optical Tactile Sensors

要約

薄い材料の操作は、多くの日常のタスクにとって重要であり、ロボットにとって重要な課題のままです。
既存の研究により、物質的な平滑化や折りたたみなどのタスクが進んでいますが、多くの研究は、層検出の予備的なステップが解決できる一般的な故障モード(しわくちゃの角/エッジ、誤った把握統計)と闘っています。
Densetact 2.0光学触覚センサーを装備したカスタムグリッパーを使用して、把持した材料層の数を分類するための新しい方法を提示します。
薄い材料を把握した後、グリッパーは、光流、6軸レンチ、およびジョイント状態データを収集しながら、擬人化された摩擦運動を実行します。
トランスベースのネットワークでこのデータを使用すると、把握した布層の数を正しく分類する際に98.21%のテスト精度が得られ、グラストされた紙の層を分類する際に81.25%の精度が得られ、動的な摩擦法の有効性が示されます。
さまざまな入力とモデルアーキテクチャの評価は、このタスクの触覚センサー情報とトランスモデルの有用性を強調します。
568のラベル付き試験の包括的なデータセット(布で368、紙の場合は200)を収集し、このペーパーとともにオープンソースを作成しました。
プロジェクトページは、https://armlabstanford.github.io/dynamic-cloth-retectionで入手できます。

要約(オリジナル)

Manipulation of thin materials is critical for many everyday tasks and remains a significant challenge for robots. While existing research has made strides in tasks like material smoothing and folding, many studies struggle with common failure modes (crumpled corners/edges, incorrect grasp con-figurations) that a preliminary step of layer detection can solve. We present a novel method for classifying the number of grasped material layers using a custom gripper equipped with DenseTact 2.0 optical tactile sensors. After grasping a thin material, the gripper performs an anthropomorphic rubbing motion while collecting optical flow, 6-axis wrench, and joint state data. Using this data in a transformer-based network achieves a test accuracy of 98.21% in correctly classifying the number of grasped cloth layers, and 81.25% accuracy in classifying layers of grasped paper, showing the effectiveness of our dynamic rubbing method. Evaluating different inputs and model architectures highlights the usefulness of tactile sensor information and a transformer model for this task. A comprehensive dataset of 568 labeled trials (368 for cloth and 200 for paper) was collected and made open-source along with this paper. Our project page is available at https://armlabstanford.github.io/dynamic-cloth-detection.

arxiv情報

著者 Ankush Kundan Dhawan,Camille Chungyoun,Karina Ting,Monroe Kennedy III
発行日 2025-03-20 02:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dynamic Layer Detection of a Thin Materials using DenseTact Optical Tactile Sensors はコメントを受け付けていません