HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios

要約

自動化された駐車場は、自律運転技術の非常に期待されているアプリケーションとして存在します。
ただし、既存の経路計画方法論は、現実に多様で複雑な駐車場のシナリオを処理することができないため、このニーズに対処することはできません。
非学習方法は信頼できる計画結果を提供しますが、学習ベースの方法は探査が得意であるが、実行可能なソリューションに収束するのに不安定ですが、複雑な機会に対して脆弱です。
両方のアプローチの強みを活用するために、ハイブリッドポリシーパスプランナー(希望)を紹介します。
この新しいソリューションは、強化学習エージェントをReeds-Shepp曲線と統合し、多様なシナリオ全体で効果的な計画を可能にします。
Hopeは、アクションマスクメカニズムを適用することにより、補強学習エージェントの調査を導き、トランスを使用して知覚された環境情報をマスクと統合します。
提案されたプランナーのトレーニングと評価を促進するために、スペースと障害物の分布に基づいて駐車場シナリオの難易度を分類するための基準を提案します。
実験結果は、私たちのアプローチが典型的なルールベースのアルゴリズムと従来の強化学習方法を上回り、さまざまなシナリオで計画の成功率と一般化を示していることを示しています。
また、実世界の実験を実施して、希望の実用性を検証します。
ソリューションのコードは、https://github.com/jiamiya/hopeで公然と入手できます。

要約(オリジナル)

Automated parking stands as a highly anticipated application of autonomous driving technology. However, existing path planning methodologies fall short of addressing this need due to their incapability to handle the diverse and complex parking scenarios in reality. While non-learning methods provide reliable planning results, they are vulnerable to intricate occasions, whereas learning-based ones are good at exploration but unstable in converging to feasible solutions. To leverage the strengths of both approaches, we introduce Hybrid pOlicy Path plannEr (HOPE). This novel solution integrates a reinforcement learning agent with Reeds-Shepp curves, enabling effective planning across diverse scenarios. HOPE guides the exploration of the reinforcement learning agent by applying an action mask mechanism and employs a transformer to integrate the perceived environmental information with the mask. To facilitate the training and evaluation of the proposed planner, we propose a criterion for categorizing the difficulty level of parking scenarios based on space and obstacle distribution. Experimental results demonstrate that our approach outperforms typical rule-based algorithms and traditional reinforcement learning methods, showing higher planning success rates and generalization across various scenarios. We also conduct real-world experiments to verify the practicability of HOPE. The code for our solution is openly available on https://github.com/jiamiya/HOPE.

arxiv情報

著者 Mingyang Jiang,Yueyuan Li,Songan Zhang,Siyuan Chen,Chunxiang Wang,Ming Yang
発行日 2025-04-20 05:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios はコメントを受け付けていません

From Imitation to Exploration: End-to-end Autonomous Driving based on World Model

要約

近年、エンドツーエンドの自律運転アーキテクチャは、エラーの蓄積を回避する際の利点により、注目を集めています。
ほとんどの既存のエンドツーエンドの自律運転方法は、模倣学習(IL)に基づいており、専門家の行動を模倣することで駆動戦略を迅速に導き出すことができます。
ただし、ILは、特に高ダイナミックおよびインタラクション集約型のトラフィック環境で、トレーニングデータセットの外でシナリオを処理するのに苦労しています。
対照的に、補強学習(RL)ベースの運転モデル​​は、環境との相互作用を通じて運転決定を最適化し、適応性と堅牢性を向上させることができます。
ILとRLの両方の強度を活用するために、意思決定を促進するためのエンドツーエンドの世界モデルベースのRL方法であるRambleを提案します。
Rambleは、非対称の変動自動エンコーダーを介して、RGB画像とLIDARデータから環境コンテキスト情報を抽出します。
次に、トランスベースのアーキテクチャを使用して、交通参加者の動的遷移をキャプチャします。
次に、現在の状態とダイナミクスの潜在的な特徴に基づいて、運転戦略を導き出すために、アクター – 批評家構造補強学習アルゴリズムが適用されます。
ポリシーの収束を加速し、安定したトレーニングを確保するために、ILを使用してポリシーネットワークを初期化するトレーニングスキームを導入し、KLの損失とソフト更新メカニズムを使用して、モデルをILからRLにスムーズに遷移させます。
ランブルは、カーラリーダーボード1.0のルート完成レートで最先端のパフォーマンスを達成し、カーラリーダーボード2.0の38のシナリオすべてを完了し、複雑で動的なトラフィックシナリオの取り扱いにおける有効性を示しています。
このモデルは、自律運転のさらなる研究開発をサポートするために、https://github.com/scp-cn-001/rambleで紙の受け入れ時にオープンソーリングされます。

要約(オリジナル)

In recent years, end-to-end autonomous driving architectures have gained increasing attention due to their advantage in avoiding error accumulation. Most existing end-to-end autonomous driving methods are based on Imitation Learning (IL), which can quickly derive driving strategies by mimicking expert behaviors. However, IL often struggles to handle scenarios outside the training dataset, especially in high-dynamic and interaction-intensive traffic environments. In contrast, Reinforcement Learning (RL)-based driving models can optimize driving decisions through interaction with the environment, improving adaptability and robustness. To leverage the strengths of both IL and RL, we propose RAMBLE, an end-to-end world model-based RL method for driving decision-making. RAMBLE extracts environmental context information from RGB images and LiDAR data through an asymmetrical variational autoencoder. A transformer-based architecture is then used to capture the dynamic transitions of traffic participants. Next, an actor-critic structure reinforcement learning algorithm is applied to derive driving strategies based on the latent features of the current state and dynamics. To accelerate policy convergence and ensure stable training, we introduce a training scheme that initializes the policy network using IL, and employs KL loss and soft update mechanisms to smoothly transition the model from IL to RL. RAMBLE achieves state-of-the-art performance in route completion rate on the CARLA Leaderboard 1.0 and completes all 38 scenarios on the CARLA Leaderboard 2.0, demonstrating its effectiveness in handling complex and dynamic traffic scenarios. The model will be open-sourced upon paper acceptance at https://github.com/SCP-CN-001/ramble to support further research and development in autonomous driving.

arxiv情報

著者 Yueyuan Li,Mingyang Jiang,Songan Zhang,Wei Yuan,Chunxiang Wang,Ming Yang
発行日 2025-04-20 06:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | From Imitation to Exploration: End-to-end Autonomous Driving based on World Model はコメントを受け付けていません

LLM-Enabled In-Context Learning for Data Collection Scheduling in UAV-assisted Sensor Networks

要約

無人航空機(UAV)は、さまざまなプライベートおよび商業用アプリケーションでますます使用されています。
交通規制、パッケージ配信、および検索救助(SAR)運用。
UAV支援センサーネットワーク(UASNET)、特に深い強化学習(DRL)で使用される機械学習(ML)方法は、SAR作業などの緊急事態の緊急性と矛盾する、複雑で長いモデルトレーニング、シミュレーションと現実のギャップ、低いサンプル効率などの課題に直面しています。
このペーパーでは、緊急事態のDRLの代替として、コンテキスト内学習(ICL)ベースのデータ収集スケジューリング(ICLDC)スキームを提案します。
UAVは、ログに記録された感覚データをLLMに収集して送信して、自然言語でタスクの説明を生成し、そこからUAVによって実行されるデータ収集スケジュールを取得します。
このシステムは、タスクの説明にフィードバックを追加し、将来の決定のためにフィードバックを利用することにより、継続的に適応します。
この方法は、タスクの説明がネットワークのパフォーマンスを損なうために操作され、LLMの脆弱性をそのような攻撃に対する脆弱性を強調するために操作されます。
提案されたICLDCは、累積パケット損失を約56 \%減らすことにより、最大チャネルゲインを上回ります。
ICLDCは、UAV支援データ収集におけるインテリジェントなスケジューリングと制御の有望な方向性を提示します。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) are increasingly being used in various private and commercial applications, e.g. traffic control, package delivery, and Search and Rescue (SAR) operations. Machine Learning (ML) methods used in UAV-assisted Sensor Networks (UASNETs) and especially in Deep Reinforcement Learning (DRL) face challenges such as complex and lengthy model training, gaps between simulation and reality, and low sample efficiency, which conflict with the urgency of emergencies such as SAR operations. This paper proposes In-Context Learning (ICL)-based Data Collection Scheduling (ICLDC) scheme, as an alternative to DRL in emergencies. The UAV collects and transmits logged sensory data, to an LLM, to generate a task description in natural language, from which it obtains a data collection schedule to be executed by the UAV. The system continuously adapts by adding feedback to task descriptions and utilizing feedback for future decisions. This method is tested against jailbreaking attacks, where task description is manipulated to undermine network performance, highlighting the vulnerability of LLMs to such attacks. The proposed ICLDC outperforms the Maximum Channel Gain by reducing cumulative packet loss by approximately 56\%. ICLDC presents a promising direction for intelligent scheduling and control in UAV-assisted data collection.

arxiv情報

著者 Yousef Emami,Hao Gao,SeyedSina Nabavirazani,Luis Almeida
発行日 2025-04-20 10:05:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 53-01, C.2, cs.AI, cs.ET, cs.LG, cs.RO | LLM-Enabled In-Context Learning for Data Collection Scheduling in UAV-assisted Sensor Networks はコメントを受け付けていません

Going Down the Abstraction Stream with Augmented Reality and Tangible Robots: the Case of Vector Instruction

要約

物理学や数学などの多くのエンジニアリングおよび科学的分野で使用され、高校でしばしば教えられているにもかかわらず、グラフィカルなベクターの追加は、大学レベルの物理学のクラスでさえ理解する際の誤解を起こしやすいトピックであることが判明しました。
学習体験と結果として生じるベクターの理解を改善するために、拡張現実と具体的なロボットを使用して実装された具体性の衰退が、学習者がベクターの添加の強力な表現を構築するのに役立つことを調査することを提案します。
私たちは、3つの具体性フェージング段階で構成されるゲーミング化学習環境を設計し、30人の参加者との実験を実施しています。
私たちの結果は、前向きな学習利益を示しています。
学習シナリオ中に、技術ツール(拡張現実と具体的なロボット)の使用を理解するために、参加者の動作を広範囲に分析します。
最後に、これらのツールの組み合わせが、具体性のフェードパラダイムを実装する上での本当の利点をどのように示しているかについて説明します。
私たちの仕事は、学習シナリオで触覚対応のロボットと拡張現実によって伝えられる具体的な視覚化をユーザーがどのように利用するかについての経験的洞察を提供します。

要約(オリジナル)

Despite being used in many engineering and scientific areas such as physics and mathematics and often taught in high school, graphical vector addition turns out to be a topic prone to misconceptions in understanding even at university-level physics classes. To improve the learning experience and the resulting understanding of vectors, we propose to investigate how concreteness fading implemented with the use of augmented reality and tangible robots could help learners to build a strong representation of vector addition. We design a gamified learning environment consisting of three concreteness fading stages and conduct an experiment with 30 participants. Our results shows a positive learning gain. We analyze extensively the behavior of the participants to understand the usage of the technological tools — augmented reality and tangible robots — during the learning scenario. Finally, we discuss how the combination of these tools shows real advantages in implementing the concreteness fading paradigm. Our work provides empirical insights into how users utilize concrete visualizations conveyed by a haptic-enabled robot and augmented reality in a learning scenario.

arxiv情報

著者 Sergei Volodin,Hala Khodr,Pierre Dillenbourg,Wafa Johal
発行日 2025-04-20 10:20:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Going Down the Abstraction Stream with Augmented Reality and Tangible Robots: the Case of Vector Instruction はコメントを受け付けていません

Haptic-based Complementary Filter for Rigid Body Rotations

要約

3D回転の非在来性の性質は、平面問題を3次元の問題に一般的にする際によく知られている課題をもたらします。これは、触覚情報(すなわち、力/トルク)が関与する接触豊富なタスクでさらにそうです。
この意味で、現在利用可能なすべての学習ベースのアルゴリズムは、3Dオリエンテーションの推定に一般化するわけではありません。
$ \ mathbf {\ mathbb {so}(3)} $で定義された非線形フィルターは、慣性測定センサーで広く使用されています。
ただし、それらのどれも触覚測定で使用されていません。
このホワイトペーパーでは、スーパークエードリックの形でオブジェクトの幾何学的形状を解釈し、$ \ mathbf {\ mathbb {so}(3)} $の対称性を悪用し、方向性の推定値を提供するために力と視覚センサーを使用します。
フレームワークの堅牢性とほぼグローバルな安定性は、デュアルアームロボットセットアップでの一連の実験によって実証されています。

要約(オリジナル)

The non-commutative nature of 3D rotations poses well-known challenges in generalizing planar problems to three-dimensional ones, even more so in contact-rich tasks where haptic information (i.e., forces/torques) is involved. In this sense, not all learning-based algorithms that are currently available generalize to 3D orientation estimation. Non-linear filters defined on $\mathbf{\mathbb{SO}(3)}$ are widely used with inertial measurement sensors; however, none of them have been used with haptic measurements. This paper presents a unique complementary filtering framework that interprets the geometric shape of objects in the form of superquadrics, exploits the symmetry of $\mathbf{\mathbb{SO}(3)}$, and uses force and vision sensors as measurements to provide an estimate of orientation. The framework’s robustness and almost global stability are substantiated by a set of experiments on a dual-arm robotic setup.

arxiv情報

著者 Amit Kumar,Domenico Campolo,Ravi N. Banavar
発行日 2025-04-20 11:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), cs.RO, cs.SY, eess.SY, I.2.9, secondary | Haptic-based Complementary Filter for Rigid Body Rotations はコメントを受け付けていません

Modality Selection and Skill Segmentation via Cross-Modality Attention

要約

触覚やオーディオなどの追加の感覚モダリティを基礎ロボットモデルに組み込むことは、次元の呪いのために大きな課題をもたらします。
この作業は、モダリティ選択を通じてこの問題に対処します。
各タイムステップでのアクション生成に対して最も有益なモダリティを特定し、選択的に利用するためのクロスモダリティの注意(CMA)メカニズムを提案します。
さらに、CMAの適用を専門家のデモンストレーションからのセグメントプリミティブスキルに拡張し、このセグメンテーションを活用して、長老の豊富な操作タスクを解決できる階層ポリシーを訓練します。

要約(オリジナル)

Incorporating additional sensory modalities such as tactile and audio into foundational robotic models poses significant challenges due to the curse of dimensionality. This work addresses this issue through modality selection. We propose a cross-modality attention (CMA) mechanism to identify and selectively utilize the modalities that are most informative for action generation at each timestep. Furthermore, we extend the application of CMA to segment primitive skills from expert demonstrations and leverage this segmentation to train a hierarchical policy capable of solving long-horizon, contact-rich manipulation tasks.

arxiv情報

著者 Jiawei Jiang,Kei Ota,Devesh K. Jha,Asako Kanezaki
発行日 2025-04-20 11:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Modality Selection and Skill Segmentation via Cross-Modality Attention はコメントを受け付けていません

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

要約

一般化可能な自己修正システムの構築は、ロボットが障害から回復するために重要です。
マルチモーダルの大手言語モデル(MLLMS)の進歩にもかかわらず、ロボットにセマンティックリフレクションの能力を失敗させ、セマンティックリフレクションを微調整されたロボットアクションを修正する方法に変換しているにもかかわらず、依然として重要な課題です。
このギャップに対処するために、フェニックスフレームワークを構築します。フェニックスフレームワークは、モーション命令をブリッジとして活用して、高レベルのセマンティックリフレクションを低レベルのロボットアクション修正に接続します。
このモーションベースの自己反省フレームワークでは、MLLMを使用したデュアルプロセスモーション調整メカニズムから始めて、セマンティックリフレクションを粗粒のモーション命令調整に変換します。
このモーション命令を活用するために、細粒のロボットアクションを修正する方法を導くために、高周波ロボットアクション補正の視覚的観測を統合するために、マルチタスクのモーション条件付き拡散ポリシーが提案されています。
これら2つのモデルを組み合わせることにより、一般化能力の需要を低レベルの操作ポリシーからMLLMS駆動型モーション調整モデルにシフトし、正確で微細なロボットアクション補正を促進することができます。
このフレームワークを利用して、ダイナミック環境との相互作用からモデルの機能を自動的に改善するために、生涯学習方法をさらに開発します。
Robomimicシミュレーションと実世界のシナリオの両方で行われた実験は、さまざまな操作タスクにわたるフレームワークの優れた一般化と堅牢性を証明しています。
私たちのコードは、\ href {https://github.com/gewu-lab/motion-self-reflection-framework} {https://github.com/gewu-lab/motion-self-reflection-framework}でリリースされています。

要約(オリジナル)

Building a generalizable self-correction system is crucial for robots to recover from failures. Despite advancements in Multimodal Large Language Models (MLLMs) that empower robots with semantic reflection ability for failure, translating semantic reflection into how to correct fine-grained robotic actions remains a significant challenge. To address this gap, we build the Phoenix framework, which leverages motion instruction as a bridge to connect high-level semantic reflection with low-level robotic action correction. In this motion-based self-reflection framework, we start with a dual-process motion adjustment mechanism with MLLMs to translate the semantic reflection into coarse-grained motion instruction adjustment. To leverage this motion instruction for guiding how to correct fine-grained robotic actions, a multi-task motion-conditioned diffusion policy is proposed to integrate visual observations for high-frequency robotic action correction. By combining these two models, we could shift the demand for generalization capability from the low-level manipulation policy to the MLLMs-driven motion adjustment model and facilitate precise, fine-grained robotic action correction. Utilizing this framework, we further develop a lifelong learning method to automatically improve the model’s capability from interactions with dynamic environments. The experiments conducted in both the RoboMimic simulation and real-world scenarios prove the superior generalization and robustness of our framework across a variety of manipulation tasks. Our code is released at \href{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}.

arxiv情報

著者 Wenke Xia,Ruoxuan Feng,Dong Wang,Di Hu
発行日 2025-04-20 12:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction はコメントを受け付けていません

Information Gain Is Not All You Need

要約

モバイルロボット工学の自律的な調査には、多くの場合、環境カバレッジの最大化と合計パス長の最小化という2つの目的の間のトレードオフが含まれます。
広く使用されている情報のゲインパラダイムでは、探索は観察の期待値に導かれます。
このアプローチは、限られた数の観測のみを行うことができる予算制約の設定の下で効果的ですが、ロボットは環境を望ましいレベルの確実性または品質に完全に探索する必要がある品質制約のシナリオと一致しません。
そのような場合、総情報ゲインは効果的に修正され、ステップごとに最大化すると、非効率的で貪欲な行動と不必要なバックトラッキングにつながる可能性があります。
このペーパーでは、情報の利益は、品質に制約のある探査の最適化目標として役立つべきではないと主張しています。
代わりに、実行可能な候補アクションをフィルタリングするために使用する必要があります。
私たちは、ロボットへの近接性と他のフロンティアからの遠隔性とのトレードオフに基づいて、候補のフロンティアを選択する新しいヒューリスティックな距離の優位性を提案します。
このヒューリスティックは、ロボットが効率的に訪問する機会が経過する前に、孤立した地域の探索に優先順位を付けることにより、将来の迂回を減らすことを目指しています。
古典的なフロンティアベースの探索とゲイン最大化アプローチに対して、シミュレートされた環境での方法を評価します。
結果は、距離の優位性が、以前のマップ予測にアクセスする場合となしの両方で、さまざまな環境の総パス長を大幅に削減することを示しています。
私たちの調査結果は、より正確なゲインの推定がパフォーマンスを改善し、品質に制約のある探査パラダイムに適した代替手段を提供するという仮定に挑戦します。

要約(オリジナル)

Autonomous exploration in mobile robotics often involves a trade-off between two objectives: maximizing environmental coverage and minimizing the total path length. In the widely used information gain paradigm, exploration is guided by the expected value of observations. While this approach is effective under budget-constrained settings–where only a limited number of observations can be made–it fails to align with quality-constrained scenarios, in which the robot must fully explore the environment to a desired level of certainty or quality. In such cases, total information gain is effectively fixed, and maximizing it per step can lead to inefficient, greedy behavior and unnecessary backtracking. This paper argues that information gain should not serve as an optimization objective in quality-constrained exploration. Instead, it should be used to filter viable candidate actions. We propose a novel heuristic, distance advantage, which selects candidate frontiers based on a trade-off between proximity to the robot and remoteness from other frontiers. This heuristic aims to reduce future detours by prioritizing exploration of isolated regions before the robot’s opportunity to visit them efficiently has passed. We evaluate our method in simulated environments against classical frontier-based exploration and gain-maximizing approaches. Results show that distance advantage significantly reduces total path length across a variety of environments, both with and without access to prior map predictions. Our findings challenge the assumption that more accurate gain estimation improves performance and offer a more suitable alternative for the quality-constrained exploration paradigm.

arxiv情報

著者 Ludvig Ericson,José Pedro,Patric Jensfelt
発行日 2025-04-20 13:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Information Gain Is Not All You Need はコメントを受け付けていません

K2MUSE: A human lower limb multimodal dataset under diverse conditions for facilitating rehabilitation robotics

要約

下肢リハビリテーションロボットの自然な相互作用と制御性能は、さまざまな人間の移動活動からの生体力学的情報と密接に関連しています。
多次元のヒトの動きデータは、神経筋変化を支配する複雑なメカニズムの理解を大幅に深め、それにより、多面的な現実世界環境でのリハビリテーションロボットの開発と応用を促進します。
ただし、現在利用可能な下肢データセットは、効果的なデータ駆動型アプローチに必要な必須マルチモーダルデータと大規模な歩行サンプルを提供するのに不十分であり、実際のアプリケーションでの取得干渉の重要な効果を無視します。このギャップを埋めるために、K2MUSEデータセットを提示します。
表面筋電図(SEMG)測定。
提案されたデータセットには、異なる傾向の下を歩いている30人の有能な参加者からの下肢マルチモーダルデータが含まれています(0 $^\ circ $、$ \ $ 5 $^\ circ $、および$ 10 $^\ circ $)、さまざまな速度(0.5 m/s、1.0 m/s、および1.5 m/s)、および異なる非潜在的な習慣条件(筋肉の脂肪の違い)。
運動学的および地上反力データは、Viconモーションキャプチャシステムと埋め込まれたフォースプレートを備えた機器のトレッドミルを介して収集されましたが、SEMGとAUSデータは、両側下肢の13筋のために同期的に記録されました。
このデータセットは、リハビリテーションロボットのための制御フレームワークを設計し、下肢の移動の生体力学的分析を実施するための新しいリソースを提供します。
データセットはhttps://k2muse.github.io/で入手できます。

要約(オリジナル)

The natural interaction and control performance of lower limb rehabilitation robots are closely linked to biomechanical information from various human locomotion activities. Multidimensional human motion data significantly deepen the understanding of the complex mechanisms governing neuromuscular alterations, thereby facilitating the development and application of rehabilitation robots in multifaceted real-world environments. However, currently available lower limb datasets are inadequate for supplying the essential multimodal data and large-scale gait samples necessary for effective data-driven approaches, and they neglect the significant effects of acquisition interference in real applications.To fill this gap, we present the K2MUSE dataset, which includes a comprehensive collection of multimodal data, comprising kinematic, kinetic, amplitude-mode ultrasound (AUS), and surface electromyography (sEMG) measurements. The proposed dataset includes lower limb multimodal data from 30 able-bodied participants walking under different inclines (0$^\circ$, $\pm$5$^\circ$, and $\pm$10$^\circ$), various speeds (0.5 m/s, 1.0 m/s, and 1.5 m/s), and different nonideal acquisition conditions (muscle fatigue, electrode shifts, and inter-day differences). The kinematic and ground reaction force data were collected via a Vicon motion capture system and an instrumented treadmill with embedded force plates, whereas the sEMG and AUS data were synchronously recorded for thirteen muscles on the bilateral lower limbs. This dataset offers a new resource for designing control frameworks for rehabilitation robots and conducting biomechanical analyses of lower limb locomotion. The dataset is available at https://k2muse.github.io/.

arxiv情報

著者 Jiwei Li,Bi Zhang,Xiaowei Tan,Wanxin Chen,Zhaoyuan Liu,Juanjuan Zhang,Weiguang Huo,Jian Huang,Lianqing Liu,Xingang Zhao
発行日 2025-04-20 13:03:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | K2MUSE: A human lower limb multimodal dataset under diverse conditions for facilitating rehabilitation robotics はコメントを受け付けていません

RoboOcc: Enhancing the Geometric and Semantic Scene Understanding for Robots

要約

3D占有予測により、ロボットは周囲のシーンの空間的な細かいジオメトリとセマンティクスを取得することができ、具体化された知覚に不可欠なタスクになりました。
密なボクセルの代わりに3Dガウスに基づく既存の方法は、ガウスの幾何学と不透明な特性を効果的に活用することはなく、複雑な環境のネットワークの推定を制限し、3Dガウスによるシーンの説明を制限します。
この論文では、ロボットと呼ばれるロボットの幾何学的およびセマンティックシーンの理解を高める3D占有予測法を提案します。
それは、不透明なガイド付きセルフエンコーダー(OSE)を利用して、周囲のシーンの微細な幾何学的モデリングを達成するために、重複するガウスと幾何学的認識クロスエンコーダー(GCE)の意味的な曖昧さを軽減します。
OCC-ScannetおよびEmpodiedOcc-Scannetデータセットで広範な実験を実施し、ROBOOCCはローカルおよびグローバルカメラ設定の両方で最先端のパフォーマンスを実現しています。
さらに、ガウスパラメーターのアブレーション研究では、提案されたROBOOCCは、IouおよびMiouメトリックのそれぞれ(8.47、6.27)の大きなマージン(8.47、6.27)の大きなマージンで最先端の方法よりも優れています。
コードはまもなくリリースされます。

要約(オリジナル)

3D occupancy prediction enables the robots to obtain spatial fine-grained geometry and semantics of the surrounding scene, and has become an essential task for embodied perception. Existing methods based on 3D Gaussians instead of dense voxels do not effectively exploit the geometry and opacity properties of Gaussians, which limits the network’s estimation of complex environments and also limits the description of the scene by 3D Gaussians. In this paper, we propose a 3D occupancy prediction method which enhances the geometric and semantic scene understanding for robots, dubbed RoboOcc. It utilizes the Opacity-guided Self-Encoder (OSE) to alleviate the semantic ambiguity of overlapping Gaussians and the Geometry-aware Cross-Encoder (GCE) to accomplish the fine-grained geometric modeling of the surrounding scene. We conduct extensive experiments on Occ-ScanNet and EmbodiedOcc-ScanNet datasets, and our RoboOcc achieves state-of the-art performance in both local and global camera settings. Further, in ablation studies of Gaussian parameters, the proposed RoboOcc outperforms the state-of-the-art methods by a large margin of (8.47, 6.27) in IoU and mIoU metric, respectively. The codes will be released soon.

arxiv情報

著者 Zhang Zhang,Qiang Zhang,Wei Cui,Shuai Shi,Yijie Guo,Gang Han,Wen Zhao,Hengle Ren,Renjing Xu,Jian Tang
発行日 2025-04-20 13:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RoboOcc: Enhancing the Geometric and Semantic Scene Understanding for Robots はコメントを受け付けていません