RoboCup Rescue 2025 Team Description Paper UruBots

要約

このホワイトペーパーでは、2025年のRobocup Rescue Robot Leagueコンペティションに参加するためにTeam Urubotsが使用するアプローチについて説明します。
私たちのチームは、ロボカップでのこのコンペティションに初めて参加することを目指しており、以前の競争や研究から学んだ経験を使用しています。
私たちは、捜索救助環境で被害者を検出して見つけるというタスクに取り組むための車両とアプローチを提示します。
私たちのアプローチには、ROS、スラム、人間のロボットの相互作用、セグメンテーションと知覚など、ロボット工学の既知のトピックが含まれています。
提案されているアプローチは、ロボカップレスキューコミュニティが利用できるオープンソースであり、そこでリーグを学び、貢献することを目指しています。

要約(オリジナル)

This paper describes the approach used by Team UruBots for participation in the 2025 RoboCup Rescue Robot League competition. Our team aims to participate for the first time in this competition at RoboCup, using experience learned from previous competitions and research. We present our vehicle and our approach to tackle the task of detecting and finding victims in search and rescue environments. Our approach contains known topics in robotics, such as ROS, SLAM, Human Robot Interaction and segmentation and perception. Our proposed approach is open source, available to the RoboCup Rescue community, where we aim to learn and contribute to the league.

arxiv情報

著者 Kevin Farias,Pablo Moraes,Igor Nunes,Juan Deniz,Sebastian Barcelona,Hiago Sodre,William Moraes,Monica Rodriguez,Ahilen Mazondo,Vincent Sandin,Gabriel da Silva,Victoria Saravia,Vinicio Melgar,Santiago Fernandez,Ricardo Grando
発行日 2025-04-14 00:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RoboCup Rescue 2025 Team Description Paper UruBots はコメントを受け付けていません

Dynamic-Dark SLAM: RGB-Thermal Cooperative Robot Vision Strategy for Multi-Person Tracking in Both Well-Lit and Low-Light Scenes

要約

ロボットビジョンでは、サーマルカメラは、完全な暗闇の中でも人間を認識するための大きな可能性を秘めています。
ただし、マルチパーソン追跡(MPT)への適用は、データ不足と個人を区別することの固有の難しさのために制限されています。
この研究では、共同配置されたRGBとサーマルカメラを利用する協調MPTシステムを提案します。ここでは、RGBとサーマルトラッカーの両方をトレーニングするために擬似解決(境界ボックスと個人ID)を使用します。
評価実験は、熱トラッカーが明るい環境と暗い環境の両方で堅牢に機能することを示しています。
さらに、結果は、トラッカースイッチング戦略(バイナリ輝度分類器に導かれた)が、トラッカー融合アプローチよりも情報統合に効果的であることを示唆しています。
アプリケーションの例として、2つの重要な特性を組み合わせた画像変更パターン認識(ICPR)メソッド、「ヒューマンマークマーク」を紹介します。暗い環境における人間の熱認識可能性と、外観、ジオメトリ、およびセマンティクス – 静的オブジェクト(オクルダー)です。
従来のSLAMは明るい環境での静的ランドマークのマッピングに焦点を当てていますが、本研究は、完全な暗闇にダイナミックなランドマークさえもマッピングすることを目的とした、新しい人間のみのスラムパラダイム「DD-Slam」に向けて第一歩を踏み出します。

要約(オリジナル)

In robot vision, thermal cameras hold great potential for recognizing humans even in complete darkness. However, their application to multi-person tracking (MPT) has been limited due to data scarcity and the inherent difficulty of distinguishing individuals. In this study, we propose a cooperative MPT system that utilizes co-located RGB and thermal cameras, where pseudo-annotations (bounding boxes and person IDs) are used to train both RGB and thermal trackers. Evaluation experiments demonstrate that the thermal tracker performs robustly in both bright and dark environments. Moreover, the results suggest that a tracker-switching strategy — guided by a binary brightness classifier — is more effective for information integration than a tracker-fusion approach. As an application example, we present an image change pattern recognition (ICPR) method, the “human-as-landmark,” which combines two key properties: the thermal recognizability of humans in dark environments and the rich landmark characteristics — appearance, geometry, and semantics — of static objects (occluders). Whereas conventional SLAM focuses on mapping static landmarks in well-lit environments, the present study takes a first step toward a new Human-Only SLAM paradigm, “DD-SLAM,” which aims to map even dynamic landmarks in complete darkness.

arxiv情報

著者 Tatsuro Sakai,Kanji Tanaka,Jonathan Tay Yu Liang,Muhammad Adil Luqman,Daiki Iwata
発行日 2025-04-14 01:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Dynamic-Dark SLAM: RGB-Thermal Cooperative Robot Vision Strategy for Multi-Person Tracking in Both Well-Lit and Low-Light Scenes はコメントを受け付けていません

EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera

要約

エゴセントリックジェスチャー認識は、自然なヒューマンコンピューターの相互作用を強化するための極めて重要なテクノロジーですが、従来のRGBベースのソリューションは、動的なシナリオのモーションブラーと照明の変動に悩まされています。
イベントカメラは、超低消費電力で高いダイナミックレンジを処理する上で明確な利点を示していますが、既存のRGBベースのアーキテクチャは、同期フレームベースの性質のために非同期イベントストリームの処理に固有の制限に直面しています。
さらに、エゴセントリックな観点から、イベントカメラは、頭の動きと手のジェスチャーの両方によって生成されたイベントを含むデータを記録し、それによってジェスチャー認識の複雑さを高めます。
これに対処するために、イベントデータ処理用に特別に設計された新しいネットワークアーキテクチャを提案します。(1)空間的特徴を維持しながらパラメーターを削減しながらパラメーターを削減しながら、パラメーターを維持するための非対称の深部ワイズ畳み込みを備えた軽量CNNを提案します。
シフトビンと時間的寸法に沿って機能をシフトして、まばらなイベントを効率的に融合させます。
さらに、イベントカメラを使用したエゴセントリックジェスチャー認識のための最初の大規模なデータセットであるEgoevgestureデータセットを確立します。
実験結果は、私たちの方法が、わずか7mのパラメーターを持つ目に見えない被験者でテストされた62.7%の精度を達成し、最先端のアプローチよりも3.1%高いことを示しています。
フリースタイルの動きにおける顕著な誤分類は、人間間の高い変動性と、トレーニングデータとは異なる目に見えないテストパターンに起因しています。
さらに、私たちのアプローチは、DVS128ジェスチャーで97.0%の顕著な精度を達成し、パブリックデータセットでのメソッドの有効性と一般化能力を実証しました。
データセットとモデルは、https://github.com/3190105222/egoev_gestureで利用可能になります。

要約(オリジナル)

Egocentric gesture recognition is a pivotal technology for enhancing natural human-computer interaction, yet traditional RGB-based solutions suffer from motion blur and illumination variations in dynamic scenarios. While event cameras show distinct advantages in handling high dynamic range with ultra-low power consumption, existing RGB-based architectures face inherent limitations in processing asynchronous event streams due to their synchronous frame-based nature. Moreover, from an egocentric perspective, event cameras record data that includes events generated by both head movements and hand gestures, thereby increasing the complexity of gesture recognition. To address this, we propose a novel network architecture specifically designed for event data processing, incorporating (1) a lightweight CNN with asymmetric depthwise convolutions to reduce parameters while preserving spatiotemporal features, (2) a plug-and-play state-space model as context block that decouples head movement noise from gesture dynamics, and (3) a parameter-free Bins-Temporal Shift Module (BSTM) that shifts features along bins and temporal dimensions to fuse sparse events efficiently. We further establish the EgoEvGesture dataset, the first large-scale dataset for egocentric gesture recognition using event cameras. Experimental results demonstrate that our method achieves 62.7% accuracy tested on unseen subjects with only 7M parameters, 3.1% higher than state-of-the-art approaches. Notable misclassifications in freestyle motions stem from high inter-personal variability and unseen test patterns differing from training data. Moreover, our approach achieved a remarkable accuracy of 97.0% on the DVS128 Gesture, demonstrating the effectiveness and generalization capability of our method on public datasets. The dataset and models are made available at https://github.com/3190105222/EgoEv_Gesture.

arxiv情報

著者 Luming Wang,Hao Shi,Xiaoting Yin,Kailun Yang,Kaiwei Wang,Jian Bai
発行日 2025-04-14 02:44:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV, physics.optics | EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera はコメントを受け付けていません

Planning Shorter Paths in Graphs of Convex Sets by Undistorting Parametrized Configuration Spaces

要約

最適化ベースのモーション計画は、さまざまなコストと制約を通じて有用なモデリングフレームワークを提供します。
軌道最適化のために凸セット(GCS)のグラフを使用すると、構成空間を凸セットの有限結合として表現することにより、実現可能性と最適性が保証されます。
非線形パラメーター化を使用して、この手法を拡張してキネマティックループなどのケースを処理できますが、これにより距離が歪んでいるため、凸目的で解くと元の空間が最適ではないパスが生成されます。
GCSを非コンベックス目標に拡張する方法を提示し、実現可能性の保証を維持しながら最適化の状況を「非難」できるようにします。
3つの異なるロボット計画ドメインでの方法の有効性を実証します。両腕を持つオブジェクトを移動する両手ロボット、オイラー角を使用した3D回転のセット、および認証領域を衝突フリーとして認証できる運動学の合理的なパラメータ化。
全面的に、私たちの方法は、ランタイムが最小限の増加だけで、パスの長さと軌道の持続時間を大幅に改善します。
ウェブサイト:https://shrutigarg914.github.io/pgd-gcs-results/

要約(オリジナル)

Optimization based motion planning provides a useful modeling framework through various costs and constraints. Using Graph of Convex Sets (GCS) for trajectory optimization gives guarantees of feasibility and optimality by representing configuration space as the finite union of convex sets. Nonlinear parametrizations can be used to extend this technique to handle cases such as kinematic loops, but this distorts distances, such that solving with convex objectives will yield paths that are suboptimal in the original space. We present a method to extend GCS to nonconvex objectives, allowing us to ‘undistort’ the optimization landscape while maintaining feasibility guarantees. We demonstrate our method’s efficacy on three different robotic planning domains: a bimanual robot moving an object with both arms, the set of 3D rotations using Euler angles, and a rational parametrization of kinematics that enables certifying regions as collision free. Across the board, our method significantly improves path length and trajectory duration with only a minimal increase in runtime. Website: https://shrutigarg914.github.io/pgd-gcs-results/

arxiv情報

著者 Shruti Garg,Thomas Cohn,Russ Tedrake
発行日 2025-04-14 02:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Planning Shorter Paths in Graphs of Convex Sets by Undistorting Parametrized Configuration Spaces はコメントを受け付けていません

PreCi: Pretraining and Continual Improvement of Humanoid Locomotion via Model-Assumption-Based Regularization

要約

ヒューマノイドの移動は、その固有の複雑さと高次元のダイナミクス、および多様で予測不可能な環境に適応する必要性のために、困難な作業です。
この作業では、モデルベースのコントローラーの動作を模倣しながら、より困難な地形やより高い速度コマンドなどのより複雑な移動タスクを処理する機能を拡張するヒューマノイド移動ポリシーを効果的にトレーニングするための新しい学習フレームワークを紹介します。
私たちのフレームワークは、モデルベースのコントローラーの模倣による事前トレーニング、補強学習による微調整、および微調整中のモデルと吸収ベースの正規化(MAR)の3つの重要なコンポーネントで構成されています。
特に、MARは、壊滅的な忘却を防ぐためにモデルの仮定が当てはまる状態でのみ、モデルベースのコントローラーからのアクションとポリシーを整合させます。
フルサイズのヒューマノイドロボットでの包括的なシミュレーションテストとハードウェア実験を通じて提案されたフレームワークを評価します。桁、滑りやすい、傾斜、不均一、砂浜など、多様な地形で1.5 m/sの前方速度と堅牢な移動を実証します。

要約(オリジナル)

Humanoid locomotion is a challenging task due to its inherent complexity and high-dimensional dynamics, as well as the need to adapt to diverse and unpredictable environments. In this work, we introduce a novel learning framework for effectively training a humanoid locomotion policy that imitates the behavior of a model-based controller while extending its capabilities to handle more complex locomotion tasks, such as more challenging terrain and higher velocity commands. Our framework consists of three key components: pre-training through imitation of the model-based controller, fine-tuning via reinforcement learning, and model-assumption-based regularization (MAR) during fine-tuning. In particular, MAR aligns the policy with actions from the model-based controller only in states where the model assumption holds to prevent catastrophic forgetting. We evaluate the proposed framework through comprehensive simulation tests and hardware experiments on a full-size humanoid robot, Digit, demonstrating a forward speed of 1.5 m/s and robust locomotion across diverse terrains, including slippery, sloped, uneven, and sandy terrains.

arxiv情報

著者 Hyunyoung Jung,Zhaoyuan Gu,Ye Zhao,Hae-Won Park,Sehoon Ha
発行日 2025-04-14 03:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | PreCi: Pretraining and Continual Improvement of Humanoid Locomotion via Model-Assumption-Based Regularization はコメントを受け付けていません

Score Matching Diffusion Based Feedback Control and Planning of Nonlinear Systems

要約

生成モデリングから原則を活用する新しい制御理論フレームワーク、具体的には、拡散確率モデル(DDPMS)を除去するために、非ホロノミー制約を備えたコントロールアフィンシステムを安定させることを提案します。
フォワードプロセスと逆プロセスの両方でノイズ駆動型のダイナミクスに依存する従来の確率的アプローチとは異なり、この方法は逆位相でのノイズの必要性を決定的に排除し、制御アプリケーションに特に関連しています。
2つの定式化を導入します。1つは、ノイズが前方フェーズ中にすべての状態の寸法を浸し、制御システムが時間の逆転を決定的に施行し、もう1つはノイズが制御チャネルに制限され、システムの制約を直接フォワードプロセスに埋め込みます。
制御可能な非線形ドリフトフリーシステムの場合、決定論的フィードバック法則が順方向プロセスを正確に逆転させることができることを証明し、システムの確率密度が逆相で人工的な拡散を必要とせずに正しく進化することを保証します。
さらに、線形時間不変システムの場合、2番目の製剤の下で時間反転結果を確立します。
後方プロセスでノイズを排除することにより、私たちのアプローチは、確率の存在により制御アプリケーションには適さない機械学習ベースの除去方法におけるより実用的な代替手段を提供します。
ベンチマークシステムの数値シミュレーションを通じて結果を検証します。これには、障害物を備えたドメインの一輪車モデル、ドリフトレス5次元システム、4次元線形システムを含み、拡散に触発された技術を線形、非線形、および状態空間制約を伴う設定を適用する可能性を示しています。

要約(オリジナル)

We propose a novel control-theoretic framework that leverages principles from generative modeling — specifically, Denoising Diffusion Probabilistic Models (DDPMs) — to stabilize control-affine systems with nonholonomic constraints. Unlike traditional stochastic approaches, which rely on noise-driven dynamics in both forward and reverse processes, our method crucially eliminates the need for noise in the reverse phase, making it particularly relevant for control applications. We introduce two formulations: one where noise perturbs all state dimensions during the forward phase while the control system enforces time reversal deterministically, and another where noise is restricted to the control channels, embedding system constraints directly into the forward process. For controllable nonlinear drift-free systems, we prove that deterministic feedback laws can exactly reverse the forward process, ensuring that the system’s probability density evolves correctly without requiring artificial diffusion in the reverse phase. Furthermore, for linear time-invariant systems, we establish a time-reversal result under the second formulation. By eliminating noise in the backward process, our approach provides a more practical alternative to machine learning-based denoising methods, which are unsuitable for control applications due to the presence of stochasticity. We validate our results through numerical simulations on benchmark systems, including a unicycle model in a domain with obstacles, a driftless five-dimensional system, and a four-dimensional linear system, demonstrating the potential for applying diffusion-inspired techniques in linear, nonlinear, and settings with state space constraints.

arxiv情報

著者 Karthik Elamvazhuthi,Darshan Gadginmath,Fabio Pasqualetti
発行日 2025-04-14 03:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, math.OC | Score Matching Diffusion Based Feedback Control and Planning of Nonlinear Systems はコメントを受け付けていません

ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments

要約

連続環境(VLN-CE)でのビジョンと言語のナビゲーションでは、エージェントが自然言語の指示に基づいて未知の連続空間をナビゲートする必要があります。
個別の設定と比較して、VLN-CEは2つのコア認識の課題を提起します。
第一に、事前に定義された観察点がないことは、不均一な視覚的記憶につながり、グローバルな空間相関を弱めました。
第二に、3次元シーンでの累積再構成エラーは、構造ノイズを導入し、局所的な特徴の知覚を損ないます。
これらの課題に対処するために、このペーパーでは、多粒度の知覚と指導意識の推論を通じてナビゲーションパフォーマンスを向上させる反復的な時空ブースターであるSt-Boosterを提案します。
ST-Boosterは、階層的な時空エンコーディング(HSTE)、多粒度アライメント融合(MGAF)、およびValueGuided WayPoint生成(VGWG)の3つの重要なモジュールで構成されています。
HSTEは、トポロジグラフを使用して長期的なグローバルメモリをエンコードし、グリッドマップを介して短期のローカル詳細をキャプチャします。
MGAFは、これらのデュアルマップ表現を、ジオメトリ認識の知識融合を通じて指示に合わせます。
結果として生じる表現は、事前トレーニングタスクを通じて繰り返し洗練されています。
推論中、VGWGはガイド付き注意ヒートマップ(GAH)を生成して、環境インストラクションの関連性を明示的にモデル化し、ウェイポイント選択を最適化します。
広範な比較実験とパフォーマンス分析が実施され、ST-Boosterは、特に複雑で妨害を受けやすい環境で、既存の最先端の方法を上回ることを示しています。

要約(オリジナル)

Vision-and-Language Navigation in Continuous Environments (VLN-CE) requires agents to navigate unknown, continuous spaces based on natural language instructions. Compared to discrete settings, VLN-CE poses two core perception challenges. First, the absence of predefined observation points leads to heterogeneous visual memories and weakened global spatial correlations. Second, cumulative reconstruction errors in three-dimensional scenes introduce structural noise, impairing local feature perception. To address these challenges, this paper proposes ST-Booster, an iterative spatiotemporal booster that enhances navigation performance through multi-granularity perception and instruction-aware reasoning. ST-Booster consists of three key modules — Hierarchical SpatioTemporal Encoding (HSTE), Multi-Granularity Aligned Fusion (MGAF), and ValueGuided Waypoint Generation (VGWG). HSTE encodes long-term global memory using topological graphs and captures shortterm local details via grid maps. MGAF aligns these dualmap representations with instructions through geometry-aware knowledge fusion. The resulting representations are iteratively refined through pretraining tasks. During reasoning, VGWG generates Guided Attention Heatmaps (GAHs) to explicitly model environment-instruction relevance and optimize waypoint selection. Extensive comparative experiments and performance analyses are conducted, demonstrating that ST-Booster outperforms existing state-of-the-art methods, particularly in complex, disturbance-prone environments.

arxiv情報

著者 Lu Yue,Dongliang Zhou,Liang Xie,Erwei Yin,Feitian Zhang
発行日 2025-04-14 03:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments はコメントを受け付けていません

MambaXCTrack: Mamba-based Tracker with SSM Cross-correlation and Motion Prompt for Ultrasound Needle Tracking

要約

超音波(米国)誘導針挿入は、経皮的介入で広く採用されています。
ただし、米国のイメージングを介して針の先端位置に関するフィードバックを提供すると、針、アーティファクト、および針の特徴を劣化させ、断続的な先端の視界につながる薄いイメージング平面による課題があります。
この論文では、構造化された状態空間モデルの相互相関(SSMX-CORR)と暗黙のモーションプロンプトを使用したマンバベースのUSニードルトラッカーMambaxCtrackが提案されています。
SSMX-Corrは、テンプレートと検索マップ間の遠隔モデリングと遠隔セマンティック機能のグローバル検索により相互相関を強化し、潜在的な遠隔セマンティックキューを暗黙的に学習することにより、ノイズとアーティファクトの下での追跡に利益をもたらします。
クロスマップインターリーブスキャン(CIS)と組み合わせることにより、局所ピクセルごとの相互作用と位置誘導バイアスとの相互作用もSSMX-Corrに導入できます。
暗黙の低レベルモーション記述子は、追跡の堅牢性を高めるための非視覚的なプロンプトとして提案され、断続的な先端視認性の問題に対処します。
ファントムと組織サンプルの両方に電動針挿入を伴うデータセットでの広範な実験は、提案されたトラッカーが他の最先端のトラッカーを上回ることを示しています。

要約(オリジナル)

Ultrasound (US)-guided needle insertion is widely employed in percutaneous interventions. However, providing feedback on the needle tip position via US imaging presents challenges due to noise, artifacts, and the thin imaging plane of US, which degrades needle features and leads to intermittent tip visibility. In this paper, a Mamba-based US needle tracker MambaXCTrack utilizing structured state space models cross-correlation (SSMX-Corr) and implicit motion prompt is proposed, which is the first application of Mamba in US needle tracking. The SSMX-Corr enhances cross-correlation by long-range modeling and global searching of distant semantic features between template and search maps, benefiting the tracking under noise and artifacts by implicitly learning potential distant semantic cues. By combining with cross-map interleaved scan (CIS), local pixel-wise interaction with positional inductive bias can also be introduced to SSMX-Corr. The implicit low-level motion descriptor is proposed as a non-visual prompt to enhance tracking robustness, addressing the intermittent tip visibility problem. Extensive experiments on a dataset with motorized needle insertion in both phantom and tissue samples demonstrate that the proposed tracker outperforms other state-of-the-art trackers while ablation studies further highlight the effectiveness of each proposed tracking module.

arxiv情報

著者 Yuelin Zhang,Long Lei,Wanquan Yan,Tianyi Zhang,Raymond Shing-Yan Tang,Shing Shin Cheng
発行日 2025-04-14 03:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MambaXCTrack: Mamba-based Tracker with SSM Cross-correlation and Motion Prompt for Ultrasound Needle Tracking はコメントを受け付けていません

Deep learning framework for action prediction reveals multi-timescale locomotor control

要約

現実世界のタスクにおける人間の動きのモデリングは、運動制御、生体力学、リハビリテーション工学の基本的な目標です。
ただし、移動などの重要なタスクの既存のモデルは、さまざまな地形、機械的条件、感覚コンテキストに適用できません。
これは、少なくとも部分的には、入力と将来のアクション間の線形および固定タイムスケールのマッピングなどの仮定を簡素化するためですが、これは広く適用されない可能性があります。
ここでは、アクション予測のための深い学習ベースのフレームワークを開発し、複数のコンテキスト(ウォーキングとランニング、トレッドミル、地上、さまざまな地形)と入力モダリティ(複数の身体状態、視覚的視線)にわたって従来のモデルよりも優れています。
GRUやTransformerなどの柔軟な入力履歴依存性を備えたニューラルネットワークアーキテクチャ、およびアーキテクチャ依存の試験埋め込みが全体的に最も優れていることがわかります。
自己回帰ベースラインに対するモデルの予測を定量化することにより、コンテキストとモダリティ依存のタイムスケールを特定します。
これらの分析は、複雑な地形での急速な予測に大きく依存していることを明らかにしており、視線は体の状態の前に将来の足の配置を予測し、全身状態の予測はマスの状態に先行するものです。
人間の行動予測のためのこの深い学習フレームワークは、現実世界の移動の制御に関する定量化可能な洞察を提供し、他のアクション、コンテキスト、および集団に拡張できます。

要約(オリジナル)

Modeling human movement in real-world tasks is a fundamental goal for motor control, biomechanics, and rehabilitation engineering. However, existing models of essential tasks like locomotion are not applicable across varying terrain, mechanical conditions, and sensory contexts. This is at least in part due to simplifying assumptions like linear and fixed timescales mappings between inputs and future actions, which may not be broadly applicable. Here, we develop a deep learning-based framework for action prediction, outperforming traditional models across multiple contexts (walking and running, treadmill and overground, varying terrains) and input modalities (multiple body states, visual gaze). We find that neural network architectures with flexible input history-dependence, like GRU and Transformer, and with architecture-dependent trial embeddings perform best overall. By quantifying the model’s predictions relative to an autoregressive baseline, we identify context- and modality-dependent timescales. These analyses reveal that there is greater reliance on fast-timescale predictions in complex terrain, gaze predicts future foot placement before body states, and the full-body state predictions precede those by center-of-mass states. This deep learning framework for human action prediction provides quantifiable insights into the control of real-world locomotion and can be extended to other actions, contexts, and populations.

arxiv情報

著者 Wei-Chen Wang,Antoine De Comite,Alexandra Voloshina,Monica Daley,Nidhi Seethapathi
発行日 2025-04-14 04:08:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Deep learning framework for action prediction reveals multi-timescale locomotor control はコメントを受け付けていません

NeRF-Based Transparent Object Grasping Enhanced by Shape Priors

要約

透明なオブジェクトの把握は、主に正確な3D情報を取得することが難しいため、ロボット工学における永続的な課題のままです。
従来の光学3Dセンサーは、透明なオブジェクトをキャプチャするのに苦労しており、機械学習方法は、高品質のデータセットへの依存によって妨げられることがよくあります。
継続的な空間不透明モデリングのNERFの機能を活用すると、提案されたアーキテクチャは、透明なオブジェクトの3D情報を再構築するためのNERFベースのアプローチを統合します。
それにもかかわらず、再構築された3D情報の特定の部分は不完全なままである可​​能性があります。
これらの欠陥に対処するために、私たちが開発した幾何学的なポーズ推定方法によってさらに洗練された形状駆動型の完了メカニズムを導入します。
これにより、透明なオブジェクトの完全で信頼できる3D情報を取得できます。
この洗練されたデータを利用して、シーンレベルの把握予測を実行し、実際のロボットシステムに結果を展開します。
実験的検証は、私たちのアーキテクチャの有効性を示しており、散らかったシーンでさまざまな透明なオブジェクトの3D情報を確実にキャプチャする能力を示し、それに対応して、高品質、馬小屋、実行可能な把握予測を実現します。

要約(オリジナル)

Transparent object grasping remains a persistent challenge in robotics, largely due to the difficulty of acquiring precise 3D information. Conventional optical 3D sensors struggle to capture transparent objects, and machine learning methods are often hindered by their reliance on high-quality datasets. Leveraging NeRF’s capability for continuous spatial opacity modeling, our proposed architecture integrates a NeRF-based approach for reconstructing the 3D information of transparent objects. Despite this, certain portions of the reconstructed 3D information may remain incomplete. To address these deficiencies, we introduce a shape-prior-driven completion mechanism, further refined by a geometric pose estimation method we have developed. This allows us to obtain a complete and reliable 3D information of transparent objects. Utilizing this refined data, we perform scene-level grasp prediction and deploy the results in real-world robotic systems. Experimental validation demonstrates the efficacy of our architecture, showcasing its capability to reliably capture 3D information of various transparent objects in cluttered scenes, and correspondingly, achieve high-quality, stables, and executable grasp predictions.

arxiv情報

著者 Yi Han,Zixin Lin,Dongjie Li,Lvping Chen,Yongliang Shi,Gan Ma
発行日 2025-04-14 04:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | NeRF-Based Transparent Object Grasping Enhanced by Shape Priors はコメントを受け付けていません