Dexterous Cable Manipulation: Taxonomy, Multi-Fingered Hand Design, and Long-Horizon Manipulation

要約

ケーブル操作に対処した既存の研究は、2本指のグリッパーに依存していたため、人間が実行する同様のケーブル操作タスクを実行することが困難になりました。
ただし、剛性オブジェクトの器用な操作とは異なり、ロボット工学における器用なケーブル操作スキルの開発は、ケーブルの変形性と固有の不確実性によってもたらされるユニークな課題のために、露出していないままです。
さらに、器用な手を使用すると、ケーブルの握り、引っ張り、および手元の曲げなどのタスクに特定の困難が導入されます。
さらに、ほとんどの既存の器用な手は、人間と同一の構造で設計されていることが観察されました。通常、1つの親指のみを特徴としていることがわかります。
最後に、既存の非タスク固有の方法では、これらのケーブル操作タスクを解決するのに十分な一般化能力がなく、設計されたハードウェアのために不適切です。
次の手順では、現実世界の器用なケーブル操作に3つの貢献があります。(1)最初に、一連の器用なケーブル操作タスクを包括的な分類法に定義および整理し、最も短いホリゾンのアクションプリミティブと長距離タスクをカバーしています。
– ハンド付きケーブル操作。
この分類法は、親指と人差し指の間の調整がケーブル操作に重要であり、これにより、長距離のタスクがより単純なプリミティブに分解されることが重要であることが明らかになりました。
(2)25の自由度(DOF)の新しい5本指の手を設計しました。これは、2つの対称サムインデックス構成と各指先に回転可能なジョイントを特徴としており、器用なケーブル操作を可能にします。
(3)私たちは、この非人道的手の手のデモコレクションパイプラインを開発しました。

要約(オリジナル)

Existing research that addressed cable manipulation relied on two-fingered grippers, which make it difficult to perform similar cable manipulation tasks that humans perform. However, unlike dexterous manipulation of rigid objects, the development of dexterous cable manipulation skills in robotics remains underexplored due to the unique challenges posed by a cable’s deformability and inherent uncertainty. In addition, using a dexterous hand introduces specific difficulties in tasks, such as cable grasping, pulling, and in-hand bending, for which no dedicated task definitions, benchmarks, or evaluation metrics exist. Furthermore, we observed that most existing dexterous hands are designed with structures identical to humans’, typically featuring only one thumb, which often limits their effectiveness during dexterous cable manipulation. Lastly, existing non-task-specific methods did not have enough generalization ability to solve these cable manipulation tasks or are unsuitable due to the designed hardware. We have three contributions in real-world dexterous cable manipulation in the following steps: (1) We first defined and organized a set of dexterous cable manipulation tasks into a comprehensive taxonomy, covering most short-horizon action primitives and long-horizon tasks for one-handed cable manipulation. This taxonomy revealed that coordination between the thumb and the index finger is critical for cable manipulation, which decomposes long-horizon tasks into simpler primitives. (2) We designed a novel five-fingered hand with 25 degrees of freedom (DoF), featuring two symmetric thumb-index configurations and a rotatable joint on each fingertip, which enables dexterous cable manipulation. (3) We developed a demonstration collection pipeline for this non-anthropomorphic hand, which is difficult to operate by previous motion capture methods.

arxiv情報

著者 Sun Zhaole,Xiao Gao,Xiaofeng Mao,Jihong Zhu,Aude Billard,Robert B. Fisher
発行日 2025-02-06 00:36:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dexterous Cable Manipulation: Taxonomy, Multi-Fingered Hand Design, and Long-Horizon Manipulation はコメントを受け付けていません

Reduce Lap Time for Autonomous Racing with Curvature-Integrated MPCC Local Trajectory Planning Method

要約

The widespread application of autonomous driving technology has significantly advanced the field of autonomous racing.
Model Predictive Contouring Control (MPCC) is a highly effective local trajectory planning method for autonomous racing.
ただし、従来のMPCCメソッドは、重大な曲率の変化がある競馬場と格闘しており、自律レース中の車両の性能を制限しています。
To address this issue, we propose a curvature-integrated MPCC (CiMPCC) local trajectory planning method for autonomous racing.
This method optimizes the velocity of the local trajectory based on the curvature of the racetrack centerline.
特定の実装には、RaceTrack中心線の曲率を参照速度プロファイルにマッピングすることが含まれます。これは、ローカル軌道の速度を最適化するためにコスト関数に組み込まれます。
この参照速度プロファイルは、Racetrack Centerlineの曲率を正規化およびマッピングすることにより作成され、それにより、有意な曲率を持つRaceTrackでの効率的かつ性能指向のローカル軌道計画を確保します。
The proposed CiMPCC method has been experimented on a self-built 1:10 scale F1TENTH racing vehicle deployed with ROS platform.
実験結果は、提案された方法が、鋭い曲率を備えた挑戦的な競馬場で優れた結果を達成し、他の自律的なレース軌道計画方法と比較して、全体のラップ時間を11.4%-12.5%改善することを示しています。
Our code is available at https://github.com/zhouhengli/CiMPCC.

要約(オリジナル)

The widespread application of autonomous driving technology has significantly advanced the field of autonomous racing. Model Predictive Contouring Control (MPCC) is a highly effective local trajectory planning method for autonomous racing. However, the traditional MPCC method struggles with racetracks that have significant curvature changes, limiting the performance of the vehicle during autonomous racing. To address this issue, we propose a curvature-integrated MPCC (CiMPCC) local trajectory planning method for autonomous racing. This method optimizes the velocity of the local trajectory based on the curvature of the racetrack centerline. The specific implementation involves mapping the curvature of the racetrack centerline to a reference velocity profile, which is then incorporated into the cost function for optimizing the velocity of the local trajectory. This reference velocity profile is created by normalizing and mapping the curvature of the racetrack centerline, thereby ensuring efficient and performance-oriented local trajectory planning in racetracks with significant curvature. The proposed CiMPCC method has been experimented on a self-built 1:10 scale F1TENTH racing vehicle deployed with ROS platform. The experimental results demonstrate that the proposed method achieves outstanding results on a challenging racetrack with sharp curvature, improving the overall lap time by 11.4%-12.5% compared to other autonomous racing trajectory planning methods. Our code is available at https://github.com/zhouhengli/CiMPCC.

arxiv情報

著者 Zhouheng Li,Lei Xie,Cheng Hu,Hongye Su
発行日 2025-02-06 01:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Reduce Lap Time for Autonomous Racing with Curvature-Integrated MPCC Local Trajectory Planning Method はコメントを受け付けていません

How vulnerable is my policy? Adversarial attacks on modern behavior cloning policies

要約

デモンストレーション(LFD)アルゴリズムから学ぶことで、ロボット操作タスクで有望な結果が示されていますが、敵対的な攻撃に対する脆弱性は採用されていないままです。
この論文は、行動クローニング(BC)、LSTM-GMM、暗黙的な行動クローニング(IBC)、拡散ポリシー(DP)、およびVQ-behaviorトランス(VQベットなど、古典的および最近提案されたアルゴリズムの両方に対する敵対的な攻撃に関する包括的な研究を提示します。
)。
これらの方法の脆弱性を、ターゲット、標的、普遍的な敵対的摂動に対する脆弱性を研究しています。
BC、LSTM-GMM、VQ-BETなどの明示的なポリシーは、標準的なコンピュータービジョンモデルと同じ方法で攻撃することができますが、暗黙的および除去ポリシーモデルの攻撃は微妙であり、新しい攻撃方法の開発が必要であることがわかります。
いくつかのシミュレートされたロボット操作タスクに関する実験は、現在の方法のほとんどが敵対的な摂動に対して非常に脆弱であることを明らかにしています。
また、これらの攻撃は、アルゴリズム、アーキテクチャ、およびタスクを介して転送できることを示しており、ホワイトボックスの脅威モデルを備えたセキュリティの脆弱性に関して提起されています。
さらに、広く使用されている敵対的防御技術であるランダム化された平滑化の有効性をテストし、複雑な制御タスクで一般的な複雑およびマルチモーダルの作用分布に対する攻撃から防御する際の制限を強調します。
要約すると、私たちの調査結果は、現代のBCアルゴリズムの脆弱性を強調しており、そのような制限に対処するための将来の仕事のための方法を舗装しています。

要約(オリジナル)

Learning from Demonstration (LfD) algorithms have shown promising results in robotic manipulation tasks, but their vulnerability to adversarial attacks remains underexplored. This paper presents a comprehensive study of adversarial attacks on both classic and recently proposed algorithms, including Behavior Cloning (BC), LSTM-GMM, Implicit Behavior Cloning (IBC), Diffusion Policy (DP), and VQ-Behavior Transformer (VQ-BET). We study the vulnerability of these methods to untargeted, targeted and universal adversarial perturbations. While explicit policies, such as BC, LSTM-GMM and VQ-BET can be attacked in the same manner as standard computer vision models, we find that attacks for implicit and denoising policy models are nuanced and require developing novel attack methods. Our experiments on several simulated robotic manipulation tasks reveal that most of the current methods are highly vulnerable to adversarial perturbations. We also show that these attacks are transferable across algorithms, architectures, and tasks, raising concerning security vulnerabilities with potentially a white-box threat model. In addition, we test the efficacy of a randomized smoothing, a widely used adversarial defense technique, and highlight its limitation in defending against attacks on complex and multi-modal action distribution common in complex control tasks. In summary, our findings highlight the vulnerabilities of modern BC algorithms, paving way for future work in addressing such limitations.

arxiv情報

著者 Basavasagar Patil,Akansha Kalra,Guanhong Tao,Daniel S. Brown
発行日 2025-02-06 01:17:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.RO | How vulnerable is my policy? Adversarial attacks on modern behavior cloning policies はコメントを受け付けていません

Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

要約

表現力豊かなロボットの動作は、社会環境でのロボットを広く受け入れるために不可欠です。
学習した脚の移動コントローラーの最近の進歩により、より動的で多用途のロボット動作が可能になりました。
ただし、さまざまなシナリオで異なるユーザーとのやり取りの最適な動作を決定することは依然として課題です。
現在の方法は、効率的ですが低解像度である自然言語の入力に依存するか、人間の好みから学習します。これは、高解像度ですが、サンプルは非効率的です。
このペーパーでは、優先学習の精度とともに、事前に訓練されたLLMによって生成されたプライアーを活用する新しいアプローチを紹介します。
言語誘導選好学習(LGPL)と呼ばれる私たちの方法は、LLMSを使用して初期行動サンプルを生成し、その後、優先ベースのフィードバックを通じて改良され、人間の期待に密接に整合する行動を学習します。
私たちの中心的な洞察は、LLMがサンプリングプロセスを優先学習のためにガイドし、サンプル効率の大幅な改善につながることです。
LGPLは、わずか4つのクエリで正確で表現力のある動作を迅速に学習できることを実証し、純粋に言語パラメーター化されたモデルと従来の好みの学習アプローチの両方を上回ります。
ビデオ付きウェブサイト:https://lgpl-gaits.github.io/

要約(オリジナル)

Expressive robotic behavior is essential for the widespread acceptance of robots in social environments. Recent advancements in learned legged locomotion controllers have enabled more dynamic and versatile robot behaviors. However, determining the optimal behavior for interactions with different users across varied scenarios remains a challenge. Current methods either rely on natural language input, which is efficient but low-resolution, or learn from human preferences, which, although high-resolution, is sample inefficient. This paper introduces a novel approach that leverages priors generated by pre-trained LLMs alongside the precision of preference learning. Our method, termed Language-Guided Preference Learning (LGPL), uses LLMs to generate initial behavior samples, which are then refined through preference-based feedback to learn behaviors that closely align with human expectations. Our core insight is that LLMs can guide the sampling process for preference learning, leading to a substantial improvement in sample efficiency. We demonstrate that LGPL can quickly learn accurate and expressive behaviors with as few as four queries, outperforming both purely language-parameterized models and traditional preference learning approaches. Website with videos: https://lgpl-gaits.github.io/

arxiv情報

著者 Jaden Clark,Joey Hejna,Dorsa Sadigh
発行日 2025-02-06 02:07:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning はコメントを受け付けていません

Action-Free Reasoning for Policy Generalization

要約

エンドツーエンドの模倣学習は、ロボットポリシーをトレーニングするための有望なアプローチを提供します。
ただし、新しい設定への一般化は依然として大きな課題です。
大規模なロボットデモンストレーションデータセットは、一般化を誘導する可能性を示していますが、それらは拡張するためにリソース集約型です。
対照的に、人間のビデオデータは豊富で多様であり、魅力的な選択肢を提示します。
しかし、これらのヒューマンビデオデータセットにはアクションラベルがなく、模倣学習での使用を複雑にしています。
既存の方法は、接地されたアクション表現(例:ハンドポーズ)を抽出しようとしますが、結果として生じるポリシーは、人間とロボットのアクションの間の具体化のギャップを埋めるのに苦労しています。
別のアプローチを提案します。一般化可能なロボットポリシーをトレーニングするためにロボットアクションを導くための人間のビデオからの言語ベースの推論を活用します。
推論ベースのポリシーアーキテクチャの最近の進歩に基づいて、アクションフリーデータ(RAD)を通じて推論を紹介します。
Radは、ロボットデモデータ(推論とアクションラベルを使用)とアクションフリーのヒューマンビデオデータ(推論ラベルのみを使用)の両方から学習します。
ロボットデータは、モデルに推論を低レベルのアクションにマッピングするように教え、一方、アクションフリーのデータは推論機能を強化します。
さらに、ブリッジV2ベ​​ンチマークと互換性のある推論注釈を備えた3,377の人間のハンドデモの新しいデータセットをリリースし、推論主導型のロボット学習に関する将来の研究を促進することを目的としています。
私たちの実験は、RADが具体化のギャップを越えて効果的な転送を可能にし、ロボットがアクションのないデータでのみ見られるタスクを実行できることを示しています。
さらに、アクションフリーの推論データを拡大すると、新しいタスクに対するポリシーのパフォーマンスと一般化が大幅に向上します。
これらの結果は、一般化可能なロボット制御を進めるためのアクションフリーデータセットからの推論主導型の学習の約束を強調しています。
プロジェクトページ:https://rad-generalization.github.io

要約(オリジナル)

End-to-end imitation learning offers a promising approach for training robot policies. However, generalizing to new settings remains a significant challenge. Although large-scale robot demonstration datasets have shown potential for inducing generalization, they are resource-intensive to scale. In contrast, human video data is abundant and diverse, presenting an attractive alternative. Yet, these human-video datasets lack action labels, complicating their use in imitation learning. Existing methods attempt to extract grounded action representations (e.g., hand poses), but resulting policies struggle to bridge the embodiment gap between human and robot actions. We propose an alternative approach: leveraging language-based reasoning from human videos-essential for guiding robot actions-to train generalizable robot policies. Building on recent advances in reasoning-based policy architectures, we introduce Reasoning through Action-free Data (RAD). RAD learns from both robot demonstration data (with reasoning and action labels) and action-free human video data (with only reasoning labels). The robot data teaches the model to map reasoning to low-level actions, while the action-free data enhances reasoning capabilities. Additionally, we will release a new dataset of 3,377 human-hand demonstrations with reasoning annotations compatible with the Bridge V2 benchmark and aimed at facilitating future research on reasoning-driven robot learning. Our experiments show that RAD enables effective transfer across the embodiment gap, allowing robots to perform tasks seen only in action-free data. Furthermore, scaling up action-free reasoning data significantly improves policy performance and generalization to novel tasks. These results highlight the promise of reasoning-driven learning from action-free datasets for advancing generalizable robot control. Project page: https://rad-generalization.github.io

arxiv情報

著者 Jaden Clark,Suvir Mirchandani,Dorsa Sadigh,Suneel Belkhale
発行日 2025-02-06 02:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Action-Free Reasoning for Policy Generalization はコメントを受け付けていません

MimicTouch: Leveraging Multi-modal Human Tactile Demonstrations for Contact-rich Manipulation

要約

触覚センシングは、挿入やアセンブリなどの細粒の接触豊富な操作タスクにとって重要です。
以前の研究では、テレオ蒸しデモンストレーションデータから触覚誘導政策を学ぶ可能性が示されています。
ただし、デモンストレーションを提供するために、人間のユーザーはしばしばロボットを制御するために視覚的なフィードバックに依存しています。
これにより、ロボット(視覚)の制御に使用されるセンシングモダリティと関心のあるモダリティ(触覚)の間にギャップが生じます。
このギャップを埋めるために、「Mimictouch」を紹介します。これは、人間のユーザーが手で提供するデモンストレーションから直接ポリシーを直接学習するための新しいフレームワークです。
重要な革新は、i)人間の触覚誘導制御戦略を学ぶためのマルチモーダル触覚データセットを収集する人間の触覚データ収集システム、ii)そのようなデータを通じて人間の触覚誘導制御戦略を学習するための模倣学習ベースのフレームワーク、およびIII
)人間の手とロボットグリッパーの間の具体化のギャップを埋めるためのオンライン残留RLフレームワーク。
包括的な実験を通じて、人間の触覚誘導制御戦略を利用して、接触が豊富な操作タスクを解決することの有効性を強調します。
プロジェクトWebサイトはhttps://sites.google.com/view/mimictouchにあります。

要約(オリジナル)

Tactile sensing is critical to fine-grained, contact-rich manipulation tasks, such as insertion and assembly. Prior research has shown the possibility of learning tactile-guided policy from teleoperated demonstration data. However, to provide the demonstration, human users often rely on visual feedback to control the robot. This creates a gap between the sensing modality used for controlling the robot (visual) and the modality of interest (tactile). To bridge this gap, we introduce ‘MimicTouch’, a novel framework for learning policies directly from demonstrations provided by human users with their hands. The key innovations are i) a human tactile data collection system which collects multi-modal tactile dataset for learning human’s tactile-guided control strategy, ii) an imitation learning-based framework for learning human’s tactile-guided control strategy through such data, and iii) an online residual RL framework to bridge the embodiment gap between the human hand and the robot gripper. Through comprehensive experiments, we highlight the efficacy of utilizing human’s tactile-guided control strategy to resolve contact-rich manipulation tasks. The project website is at https://sites.google.com/view/MimicTouch.

arxiv情報

著者 Kelin Yu,Yunhai Han,Qixian Wang,Vaibhav Saxena,Danfei Xu,Ye Zhao
発行日 2025-02-06 04:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | MimicTouch: Leveraging Multi-modal Human Tactile Demonstrations for Contact-rich Manipulation はコメントを受け付けていません

Large Language Models for Multi-Robot Systems: A Survey

要約

大規模な言語モデル(LLMS)の迅速な進歩により、マルチロボットシステム(MRS)に新しい可能性が開かれ、コミュニケーション、タスク計画、および人間とロボットの相互作用が強化されました。
従来のシングルロボットおよびマルチエージェントシステムとは異なり、MRSは、調整、スケーラビリティ、実際の適応性など、独自の課題を提起します。
この調査では、MRSへのLLM統合の最初の包括的な調査を提供します。
高レベルのタスク割り当て、ミッドレベルのモーション計画、低レベルのアクション生成、および人間の介入におけるアプリケーションを体系的に分類します。
家庭用ロボット工学、建設、フォーメーション制御、ターゲット追跡、ロボットゲームなど、多様なドメインの主要なアプリケーションを強調し、MRSのLLMSの汎用性と変革の可能性を紹介します。
さらに、数学的な推論の制限、幻覚、潜伏期の問題、堅牢なベンチマークシステムの必要性など、MRSのLLMの適応を制限する課題を調べます。
最後に、将来の研究の機会を概説し、微調整、推論技術、およびタスク固有のモデルの進歩を強調します。
この調査の目的は、LLMSが搭載したMRSのインテリジェンスと現実世界の展開において研究者を導くことを目的としています。
この分野での研究の急速に進化する性質に基づいて、オープンソースのGitHubリポジトリの論文を更新し続けています。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has opened new possibilities in Multi-Robot Systems (MRS), enabling enhanced communication, task planning, and human-robot interaction. Unlike traditional single-robot and multi-agent systems, MRS poses unique challenges, including coordination, scalability, and real-world adaptability. This survey provides the first comprehensive exploration of LLM integration into MRS. It systematically categorizes their applications across high-level task allocation, mid-level motion planning, low-level action generation, and human intervention. We highlight key applications in diverse domains, such as household robotics, construction, formation control, target tracking, and robot games, showcasing the versatility and transformative potential of LLMs in MRS. Furthermore, we examine the challenges that limit adapting LLMs in MRS, including mathematical reasoning limitations, hallucination, latency issues, and the need for robust benchmarking systems. Finally, we outline opportunities for future research, emphasizing advancements in fine-tuning, reasoning techniques, and task-specific models. This survey aims to guide researchers in the intelligence and real-world deployment of MRS powered by LLMs. Based on the fast-evolving nature of research in the field, we keep updating the papers in the open-source Github repository.

arxiv情報

著者 Peihan Li,Zijian An,Shams Abrar,Lifeng Zhou
発行日 2025-02-06 06:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Large Language Models for Multi-Robot Systems: A Survey はコメントを受け付けていません

Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training

要約

オフラインの行動クローニングを介して訓練された拡散ポリシーは、最近ロボットモーション生成で牽引力を獲得しました。
効果的ですが、これらのポリシーは通常、多数のトレーニング可能なパラメーターを必要とします。
このモデルサイズは強力な表現を提供しますが、トレーニング中に高い計算コストも発生します。
理想的には、必要に応じてトレーニング可能な部分を動的に調整し、表現力と計算効率のバランスをとることが有益です。
たとえば、オーバーパラメーター化により、拡散ポリシーはオフラインの行動クローンを介して複雑なロボット行動をキャプチャすることができますが、計算需要の増加により、オンラインインタラクティブな模倣学習は、トレーニング時間が長いため非現実的になります。
この課題に対処するために、Driftと呼ばれるフレームワークを提示します。これは、拡散ポリシートレーニング中に動的なランク調整を可能にするために特異値分解を使用します。
このフレームワークの利点は、オフラインブートストラップフェーズとオンラインインタラクティブフェーズの間でシームレスにスライドできる模倣学習アルゴリズムであるDrift-Daggerで実装および実証します。
提案されたフレームワークをよりよく理解するために広範な実験を実行し、ドリフトダガーがモデルパフォーマンスへの影響を最小限に抑えてサンプル効率とより速いトレーニングを改善することを実証します。

要約(オリジナル)

Diffusion policies trained via offline behavioral cloning have recently gained traction in robotic motion generation. While effective, these policies typically require a large number of trainable parameters. This model size affords powerful representations but also incurs high computational cost during training. Ideally, it would be beneficial to dynamically adjust the trainable portion as needed, balancing representational power with computational efficiency. For example, while overparameterization enables diffusion policies to capture complex robotic behaviors via offline behavioral cloning, the increased computational demand makes online interactive imitation learning impractical due to longer training time. To address this challenge, we present a framework, called DRIFT, that uses the Singular Value Decomposition to enable dynamic rank adjustment during diffusion policy training. We implement and demonstrate the benefits of this framework in DRIFT-DAgger, an imitation learning algorithm that can seamlessly slide between an offline bootstrapping phase and an online interactive phase. We perform extensive experiments to better understand the proposed framework, and demonstrate that DRIFT-DAgger achieves improved sample efficiency and faster training with minimal impact on model performance.

arxiv情報

著者 Xiatao Sun,Shuo Yang,Yinxing Chen,Francis Fan,Yiyan,Liang,Daniel Rakita
発行日 2025-02-06 07:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training はコメントを受け付けていません

ImDy: Human Inverse Dynamics from Imitated Observations

要約

人間の運動観察から駆動されるトルクを再現することを目的とする逆ダイナミクス(ID)は、歩行分析のための重要なツールでした。
ただし、スケーラビリティが限られているため、より広いアプリケーションから一般的な動きに妨げられます。
従来の最適化ベースのIDには、高価な実験室のセットアップが必要であり、その可用性を制限します。
この問題を軽減するために、最近進歩的な人間の動き模倣アルゴリズムを活用して、データ駆動型の方法で人間の逆ダイナミクスを学習することを提案します。
重要な洞察は、人間のIDの知識は、直接適用されないものではないものの、モーション模倣者によって暗黙的に所有されているということです。
これに照らして、最先端のモーション模倣アルゴリズムと物理シミュレーターを備えた効率的なデータ収集パイプラインを考案し、その結果、模倣ダイナミクス(IMDY)としての大規模な人間の逆ダイナミクスベンチマークが得られます。
Imdyには、関節トルクと全身の接地反動力データを備えた150時間以上の動きが含まれています。
Imdyを使用すると、データ駆動型のヒト逆ダイナミクスソルバーIMDYS(OLVER)を完全に監視した方法でトレーニングします。
Imdyおよび実際のデータに関する実験は、人間の逆ダイナミクスと地上反力の推定におけるIMDYの印象的な能力を示しています。
さらに、基本的なモーション解析ツールとしてのIMDY(-S)の可能性は、ダウンストリームアプリケーションで展示されています。
プロジェクトページはhttps://foruck.github.io/imdy/です。

要約(オリジナル)

Inverse dynamics (ID), which aims at reproducing the driven torques from human kinematic observations, has been a critical tool for gait analysis. However, it is hindered from wider application to general motion due to its limited scalability. Conventional optimization-based ID requires expensive laboratory setups, restricting its availability. To alleviate this problem, we propose to exploit the recently progressive human motion imitation algorithms to learn human inverse dynamics in a data-driven manner. The key insight is that the human ID knowledge is implicitly possessed by motion imitators, though not directly applicable. In light of this, we devise an efficient data collection pipeline with state-of-the-art motion imitation algorithms and physics simulators, resulting in a large-scale human inverse dynamics benchmark as Imitated Dynamics (ImDy). ImDy contains over 150 hours of motion with joint torque and full-body ground reaction force data. With ImDy, we train a data-driven human inverse dynamics solver ImDyS(olver) in a fully supervised manner, which conducts ID and ground reaction force estimation simultaneously. Experiments on ImDy and real-world data demonstrate the impressive competency of ImDyS in human inverse dynamics and ground reaction force estimation. Moreover, the potential of ImDy(-S) as a fundamental motion analysis tool is exhibited with downstream applications. The project page is https://foruck.github.io/ImDy/.

arxiv情報

著者 Xinpeng Liu,Junxuan Liang,Zili Lin,Haowen Hou,Yong-Lu Li,Cewu Lu
発行日 2025-02-06 07:22:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | ImDy: Human Inverse Dynamics from Imitated Observations はコメントを受け付けていません

LeAP: Consistent multi-domain 3D labeling using Foundation Models

要約

データセットの可用性は、3Dセマンティック理解に関する研究の強力なドライバーであり、ラベルのない3Dポイントクラウドデータを取得することは簡単ですが、このデータをセマンティックラベルで手動で注釈するのは時間がかかり、費用がかかります。
最近、Vision Foundation Models(VFMS)は、カメラ画像のオープンセットセマンティックセグメンテーションを可能にし、自動ラベル付けを支援する可能性があります。
ただし、3DデータのVFMは2Dモデルの適応に限定されており、3Dラベルに矛盾を導入できます。
この作業では、ラベルが任意のPointCloud(LEAP)を導入し、2D VFMを活用して、ラベルの一貫性を確保しながら、あらゆる種類のアプリケーションのクラスのセットで3Dデータを自動的にラベル付けします。
ベイジアンアップデートを使用して、ポイントラベルをボクセルに組み合わせて、時空間の一貫性を改善します。
新しい3D Consipsency Network(3D-CN)は、3D情報を活用して、ラベルの品質をさらに向上させます。
さまざまな実験を通じて、私たちの方法は、手動のラベル付けなしに、多様なフィールド全体で高品質の3Dセマンティックラベルを生成できることを示しています。
さらに、ラベルを使用して新しいドメインに適応したモデルは、セマンティックセグメンテーションタスクの最大34.2 miouの増加を示しています。

要約(オリジナル)

Availability of datasets is a strong driver for research on 3D semantic understanding, and whilst obtaining unlabeled 3D point cloud data is straightforward, manually annotating this data with semantic labels is time-consuming and costly. Recently, Vision Foundation Models (VFMs) enable open-set semantic segmentation on camera images, potentially aiding automatic labeling. However,VFMs for 3D data have been limited to adaptations of 2D models, which can introduce inconsistencies to 3D labels. This work introduces Label Any Pointcloud (LeAP), leveraging 2D VFMs to automatically label 3D data with any set of classes in any kind of application whilst ensuring label consistency. Using a Bayesian update, point labels are combined into voxels to improve spatio-temporal consistency. A novel 3D Consistency Network (3D-CN) exploits 3D information to further improve label quality. Through various experiments, we show that our method can generate high-quality 3D semantic labels across diverse fields without any manual labeling. Further, models adapted to new domains using our labels show up to a 34.2 mIoU increase in semantic segmentation tasks.

arxiv情報

著者 Simon Gebraad,Andras Palffy,Holger Caesar
発行日 2025-02-06 09:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LeAP: Consistent multi-domain 3D labeling using Foundation Models はコメントを受け付けていません