CATCH-FORM-3D: Compliance-Aware Tactile Control and Hybrid Deformation Regulation for 3D Viscoelastic Object Manipulation

要約

このペーパーでは、粘弾性材料操作における正確な接触力制御と表面変形調節のためのフレームワーク(CATCH-FORM-3D)を調査します。
部分的な微分方程式(PDE)が提案されており、時空間的な応力 – ひずみダイナミクスをモデル化し、3D Kelvin-Voigt(剛性減衰)およびMaxwell(拡散)効果を統合して、材料の粘弾性挙動をキャプチャします。
主要な機械的パラメーター(剛性、減衰、拡散係数)は、PDE駆動型オブザーバーを介してリアルタイムで推定されます。
このオブザーバーは、視覚触覚センサーデータと実験的に検証された力を融合して、豊富な回帰信号を生成します。
次に、内部のループ制御構造が構築されます。
外側のループでは、参照変形は、接触力測定を備えた比例誘導性(PD)フィードバック法である新しいアドミタンス制御法則によって更新され、システムが外部相互作用に適応的に応答するようにします。
内側のループでは、変形追跡誤差の反応拡散PDEが定式化され、接触面を分析的な幾何学的構成に適合させることで指数関数的に安定化されます(つまり、Dirichlet境界条件を定義します)。
このデュアルループアーキテクチャにより、動的接触環境での効果的な変形調節が可能になります。
Paxiniロボットハンドを使用した実験は、サブミリメートルの変形精度と安定した力追跡を示しています。
このフレームワークは、産業集会、ポリマーの形成、外科的治療、家庭サービスなどの用途における準拠のロボット相互作用を進めます。

要約(オリジナル)

This paper investigates a framework (CATCH-FORM-3D) for the precise contact force control and surface deformation regulation in viscoelastic material manipulation. A partial differential equation (PDE) is proposed to model the spatiotemporal stress-strain dynamics, integrating 3D Kelvin-Voigt (stiffness-damping) and Maxwell (diffusion) effects to capture the material’s viscoelastic behavior. Key mechanical parameters (stiffness, damping, diffusion coefficients) are estimated in real time via a PDE-driven observer. This observer fuses visual-tactile sensor data and experimentally validated forces to generate rich regressor signals. Then, an inner-outer loop control structure is built up. In the outer loop, the reference deformation is updated by a novel admittance control law, a proportional-derivative (PD) feedback law with contact force measurements, ensuring that the system responds adaptively to external interactions. In the inner loop, a reaction-diffusion PDE for the deformation tracking error is formulated and then exponentially stabilized by conforming the contact surface to analytical geometric configurations (i.e., defining Dirichlet boundary conditions). This dual-loop architecture enables the effective deformation regulation in dynamic contact environments. Experiments using a PaXini robotic hand demonstrate sub-millimeter deformation accuracy and stable force tracking. The framework advances compliant robotic interactions in applications like industrial assembly, polymer shaping, surgical treatment, and household service.

arxiv情報

著者 Hongjun Ma,Weichang Li
発行日 2025-04-11 03:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CATCH-FORM-3D: Compliance-Aware Tactile Control and Hybrid Deformation Regulation for 3D Viscoelastic Object Manipulation はコメントを受け付けていません

InSPE: Rapid Evaluation of Heterogeneous Multi-Modal Infrastructure Sensor Placement

要約

インフラストラクチャセンシングは、安全ホットスポット(たとえば交差点)での交通監視に不可欠であり、自律運転における協同的認識のバックボーンとして機能します。
車両センシングは広く研究されていますが、特に多様な交差点の形状、複雑な閉塞、さまざまな交通条件、照明や天気などの周囲の環境のユニークな課題を考えると、インフラストラクチャセンシングはほとんど注目されていません。
これらの問題に対処し、費用対効果の高いセンサー配置を確保するために、複数のインフラストラクチャと環境シナリオ全体で知覚効果を迅速に評価する知覚サロゲートメトリックセットである、マルチモーダルセンサーの組み合わせを備えた知覚サロゲートメトリックセットである不均一なマルチモーダルインフラストラクチャセンサー配置評価(INSPE)を確実に提案します。
Inspeは、3つの慎重に設計されたメトリック、つまりセンサーカバレッジ、知覚閉塞、および情報ゲインを統合することにより、知覚機能を体系的に評価します。
大規模な評価をサポートするために、Carlaシミュレーター内のデータ生成ツールを開発し、多様な交差点と環境条件をカバーするデータセットであるInfra-Setも導入します。
最先端の認識アルゴリズムを使用したベンチマーク実験は、Inspeが効率的でスケーラブルなセンサー配置分析を可能にし、インテリジェントな交差点インフラストラクチャを最適化するための堅牢なソリューションを提供することを示しています。

要約(オリジナル)

Infrastructure sensing is vital for traffic monitoring at safety hotspots (e.g., intersections) and serves as the backbone of cooperative perception in autonomous driving. While vehicle sensing has been extensively studied, infrastructure sensing has received little attention, especially given the unique challenges of diverse intersection geometries, complex occlusions, varying traffic conditions, and ambient environments like lighting and weather. To address these issues and ensure cost-effective sensor placement, we propose Heterogeneous Multi-Modal Infrastructure Sensor Placement Evaluation (InSPE), a perception surrogate metric set that rapidly assesses perception effectiveness across diverse infrastructure and environmental scenarios with combinations of multi-modal sensors. InSPE systematically evaluates perception capabilities by integrating three carefully designed metrics, i.e., sensor coverage, perception occlusion, and information gain. To support large-scale evaluation, we develop a data generation tool within the CARLA simulator and also introduce Infra-Set, a dataset covering diverse intersection types and environmental conditions. Benchmarking experiments with state-of-the-art perception algorithms demonstrate that InSPE enables efficient and scalable sensor placement analysis, providing a robust solution for optimizing intelligent intersection infrastructure.

arxiv情報

著者 Zhaoliang Zheng,Yun Zhang,Zongling Meng,Johnson Liu,Xin Xia,Jiaqi Ma
発行日 2025-04-11 03:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | InSPE: Rapid Evaluation of Heterogeneous Multi-Modal Infrastructure Sensor Placement はコメントを受け付けていません

Spectral Normalization for Lipschitz-Constrained Policies on Learning Humanoid Locomotion

要約

強化学習(RL)は、脚のあるロボットのアジャイルで適応性のあるコントローラーをトレーニングすることで大きな可能性を示しており、経験から直接複雑な移動行動を学ぶことができます。
ただし、シミュレーションで訓練されたポリシーは、無限のアクチュエータ帯域幅やトルク制限がないなどの非現実的な仮定のために、実際のロボットに転送できないことがよくあります。
これらの条件により、ポリシーは急激な高周波トルクの変化に依存することができます。これは、有限帯域幅を持つ実際のアクチュエーターにとっては実行不可能です。
従来の方法は、関節の速度、加速、エネルギー消費などの正則化の報酬を通じて攻撃的な動きを罰することにより、この問題に対処しますが、広範なハイパーパラメーターチューニングが必要です。
あるいは、Lipschitz-Constraended Policies(LCP)は、ポリシーの勾配を罰することにより有限帯域幅のアクション制御を実施しますが、勾配計算への依存は重要なGPUメモリオーバーヘッドを導入します。
この制限を克服するために、この作業は、Lipschitzの連続性を実施するための効率的な代替品として、スペクトル正規化(SN)を提案しています。
ネットワークの重みのスペクトル規範を制約することにより、SNはGPUメモリの使用量を大幅に削減しながら、高周波ポリシーの変動を効果的に制限します。
シミュレーションと現実世界のヒューマノイドロボットの両方の実験的評価は、SNがグラデーションペナルティ方法に匹敵するパフォーマンスを達成し、より効率的な並列トレーニングを可能にすることを示しています。

要約(オリジナル)

Reinforcement learning (RL) has shown great potential in training agile and adaptable controllers for legged robots, enabling them to learn complex locomotion behaviors directly from experience. However, policies trained in simulation often fail to transfer to real-world robots due to unrealistic assumptions such as infinite actuator bandwidth and the absence of torque limits. These conditions allow policies to rely on abrupt, high-frequency torque changes, which are infeasible for real actuators with finite bandwidth. Traditional methods address this issue by penalizing aggressive motions through regularization rewards, such as joint velocities, accelerations, and energy consumption, but they require extensive hyperparameter tuning. Alternatively, Lipschitz-Constrained Policies (LCP) enforce finite bandwidth action control by penalizing policy gradients, but their reliance on gradient calculations introduces significant GPU memory overhead. To overcome this limitation, this work proposes Spectral Normalization (SN) as an efficient replacement for enforcing Lipschitz continuity. By constraining the spectral norm of network weights, SN effectively limits high-frequency policy fluctuations while significantly reducing GPU memory usage. Experimental evaluations in both simulation and real-world humanoid robot show that SN achieves performance comparable to gradient penalty methods while enabling more efficient parallel training.

arxiv情報

著者 Jaeyong Shin,Woohyun Cha,Donghyeon Kim,Junhyeok Cha,Jaeheung Park
発行日 2025-04-11 04:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY | Spectral Normalization for Lipschitz-Constrained Policies on Learning Humanoid Locomotion はコメントを受け付けていません

Formal Verification and Control with Conformal Prediction

要約

この調査では、不確実性の定量化のための統計ツールであるコンフォーマル予測(CP)を使用した実践的安全保証を使用して、自律システムの正式な検証および制御アルゴリズムを設計します。
学習対応コンポーネント(LEC)の複雑さが既存のモデルベースの検証と設計手法の使用を妨げる主要なボトルネックである学習対応自律システム(LEAS)に焦点を当てています。
代わりに、CPの使用を提唱し、正式な検証、システムと制御理論、およびロボット工学での使用を実証します。
CPは、その単純さ(理解しやすく、使用し、変更しやすい)、一般性(学習モデルやデータ分布に関する仮定は必要ありません。つまり、分布なし)、効率(リアルタイムの能力があり、正確です)のために特別に有用であると主張します。
この調査では、次の目標を追求します。
まず、CPを使用して自律性の問題を解決することに興味がある非専門家向けのCPへのアクセス可能な紹介を提供します。
次に、ニューラルネットワークの入出力特性を検証するために、LECの検証にCPを使用する方法を示します。
3番目と4番目に、安全な制御設計にCPを使用し、リースのオフラインおよびオンライン検証に使用する最近の記事をレビューします。
計算上効率的な方法でリースの複雑さを扱うことができる統一フレームワークで彼らのアイデアを要約します。
博覧会では、単純なシステム仕様、例えばロボットナビゲーションタスク、および時間的論理形式で定式化された複雑な仕様を検討します。
調査全体を通して、他の統計的手法(シナリオの最適化、PACベイズ理論など)およびこれらの手法が検証と制御にどのように使用されているかと比較します。
最後に、読者は問題と将来の研究の方向性を開くように指摘します。

要約(オリジナル)

In this survey, we design formal verification and control algorithms for autonomous systems with practical safety guarantees using conformal prediction (CP), a statistical tool for uncertainty quantification. We focus on learning-enabled autonomous systems (LEASs) in which the complexity of learning-enabled components (LECs) is a major bottleneck that hampers the use of existing model-based verification and design techniques. Instead, we advocate for the use of CP, and we will demonstrate its use in formal verification, systems and control theory, and robotics. We argue that CP is specifically useful due to its simplicity (easy to understand, use, and modify), generality (requires no assumptions on learned models and data distributions, i.e., is distribution-free), and efficiency (real-time capable and accurate). We pursue the following goals with this survey. First, we provide an accessible introduction to CP for non-experts who are interested in using CP to solve problems in autonomy. Second, we show how to use CP for the verification of LECs, e.g., for verifying input-output properties of neural networks. Third and fourth, we review recent articles that use CP for safe control design as well as offline and online verification of LEASs. We summarize their ideas in a unifying framework that can deal with the complexity of LEASs in a computationally efficient manner. In our exposition, we consider simple system specifications, e.g., robot navigation tasks, as well as complex specifications formulated in temporal logic formalisms. Throughout our survey, we compare to other statistical techniques (e.g., scenario optimization, PAC-Bayes theory, etc.) and how these techniques have been used in verification and control. Lastly, we point the reader to open problems and future research directions.

arxiv情報

著者 Lars Lindemann,Yiqi Zhao,Xinyi Yu,George J. Pappas,Jyotirmoy V. Deshmukh
発行日 2025-04-11 04:19:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Formal Verification and Control with Conformal Prediction はコメントを受け付けていません

DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning

要約

デュアルアームロボットは、複数のオブジェクトの同時操作または両腕を使用したタスクの協力的実行を可能にすることにより、単一腕のカウンターパートにわたる汎用性と効率を高めます。
ただし、長期式タスクのデュアルアームシステムの調整は、サブタスク間の複雑な時間的および空間的依存関係に起因する重要な課題を引き起こし続け、武器間のアクションの割り当てと最適な実行順序に関するインテリジェントな決定を必要とします。
既存のタスク計画方法は、主に単一腕ロボットに焦点を当てるか、事前定義された両操作に依存して、大規模な言語モデル(LLM)を使用して、線形時間依存性を備えたタスクシーケンスを生成し、デュアルアームシステムの機能を完全に活用できません。
この制限に対処するために、デュアルアームロボットに合わせた構造化されたタスク計画フレームワークであるDag-Planを紹介します。
DAG-PlanはLLMSを活用して、複雑なタスクを、指示された非環式グラフ(DAG)内のノードとして表す実用的なサブタスクに分解します。
批判的に、DAG-Planは、リアルタイムの環境観測に基づいてこれらのサブタスクを適切なアームに動的に割り当て、並列および適応性のある実行を可能にします。
44のサブタスクを備えた5つのシーケンシャルタスクで構成されるデュアルアームキッチンベンチマークでDag-Planを評価します。
広範な実験では、LLMを使用して直接的なLLMを使用して線形タスクシーケンスを生成したDAG-Planの優位性が示されており、単一腕のタスク計画と比較して52.8%高い効率を達成し、デュアルアームタスク計画の48%の成功率を達成しています。
反復方法と比較して、クエリ時間が少ないため、DAG-PLANの実行効率を84.1%改善します。
より多くのデモと情報は、https://sites.google.com/view/dag-planで入手できます。

要約(オリジナル)

Dual-arm robots offer enhanced versatility and efficiency over single-arm counterparts by enabling concurrent manipulation of multiple objects or cooperative execution of tasks using both arms. However, the coordination of dual-arm systems for long-horizon tasks continues to pose significant challenges, stemming from the intricate temporal and spatial dependencies among sub-tasks, necessitating intelligent decisions regarding the allocation of actions between arms and their optimal execution order. Existing task planning methods predominantly focus on single-arm robots or rely on predefined bimanual operations to use large language models (LLMs) generate task sequence with linear temporal dependency, failing to fully leverage the capabilities of dual-arm systems. To address this limitation, we introduce DAG-Plan, a structured task planning framework tailored for dual-arm robots. DAG-Plan harnesses LLMs to decompose intricate tasks into actionable sub-tasks represented as nodes within a directed acyclic graph (DAG). Critically, DAG-Plan dynamically assigns these sub-tasks to the appropriate arm based on real-time environmental observations, enabling parallel and adaptive execution. We evaluate DAG-Plan on the Dual-Arm Kitchen Benchmark, comprising 5 sequential tasks with 44 sub-tasks. Extensive experiments demonstrate the superiority of DAG-Plan over directly using LLM to generate linear task sequence, achieving 52.8% higher efficiency compared to the single-arm task planning and 48% higher success rate of the dual-arm task planning. Compared to iterative methods, DAG-Plan improving execution efficiency 84.1% due to its fewer query time. More demos and information are available on https://sites.google.com/view/dag-plan.

arxiv情報

著者 Zeyu Gao,Yao Mu,Jinye Qu,Mengkang Hu,Shijia Peng,Chengkai Hou,Lingyue Guo,Ping Luo,Shanghang Zhang,Yanfeng Lu
発行日 2025-04-11 05:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning はコメントを受け付けていません

Interior Point Differential Dynamic Programming, Redux

要約

非線形制約を伴う離散時間、有限の地平線最適制御問題を解くための構造抽出アルゴリズムであるIPDDP2を提示します。
不等式の制約は、原始二重の内部ポイントの定式化を使用して処理され、平等制約のステップ受け入れはライン検索フィルターアプローチに従います。
アルゴリズムの反復は、微分動的プログラミング(DDP)フレームワークの下で導出されます。
私たちの数値実験は、4つのロボットモーション計画の問題でIPDDP2を評価します。
IPDDP2は、最適性の低いエラーに確実に収束し、リモートの出発点からローカルな2次収束とグローバルな収束を示します。
特に、IPDDP2の堅牢性を使用して、一連の初期条件からの相補性の制約を伴う接触的な接点限定されたアクロバットスイングアップ問題を解決することにより、我々は紹介します。
Juliaプログラミング言語でIPDDP2の完全な実装を提供します。

要約(オリジナル)

We present IPDDP2, a structure-exploiting algorithm for solving discrete-time, finite horizon optimal control problems with nonlinear constraints. Inequality constraints are handled using a primal-dual interior point formulation and step acceptance for equality constraints follows a line-search filter approach. The iterates of the algorithm are derived under the Differential Dynamic Programming (DDP) framework. Our numerical experiments evaluate IPDDP2 on four robotic motion planning problems. IPDDP2 reliably converges to low optimality error and exhibits local quadratic and global convergence from remote starting points. Notably, we showcase the robustness of IPDDP2 by using it to solve a contact-implicit, joint limited acrobot swing-up problem involving complementarity constraints from a range of initial conditions. We provide a full implementation of IPDDP2 in the Julia programming language.

arxiv情報

著者 Ming Xu,Stephen Gould,Iman Shames
発行日 2025-04-11 06:18:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Interior Point Differential Dynamic Programming, Redux はコメントを受け付けていません

PNE-SGAN: Probabilistic NDT-Enhanced Semantic Graph Attention Network for LiDAR Loop Closure Detection

要約

LIDARループ閉鎖検出(LCD)は、一貫した同時ローカリゼーションとマッピング(SLAM)に不可欠ですが、堅牢性と精度の課題に直面しています。
セマンティックグラフアプローチを含む既存の方法は、多くの場合、粗い幾何学的表現に悩まされ、ノイズ、ダイナミクス、視点の変化に対する時間的堅牢性がありません。
これらの制限を克服するために、確率的NDT強化セマンティックグラフ注意ネットワークであるPne-sganを紹介します。
Pne-sganは、グラフ注意ネットワーク(GAT)を介して処理された、豊富で識別幾何学的ノード機能として、通常の分布変換(NDT)共分散行列を使用してセマンティックグラフを強化します。
重要なことに、グラフの類似性スコアを確率論的な時間フィルタリングフレームワーク(HMM/ベイズフィルターとしてモデル化)に統合し、モーションモデリングに不確実な匂い測定を組み込み、前袋のスムージングを利用してあいまいさを効果的に処理します。
挑戦的なキティシーケンス(00および08)の評価は、それぞれ96.2 \%と95.1 \%の平均精度を達成し、それぞれ最先端のパフォーマンスを実証しています。
PNE-sganは、特に他の人がゆるむ困難な双方向ループシナリオで、既存の方法を大幅に上回ります。
原則的な確率的時間的推論で詳細なNDTジオメトリを相乗的にすることにより、PNE-SGANはLIDAR LCDに非常に正確で堅牢なソリューションを提供し、複雑で大規模な環境でのSLAMの信頼性を高めます。

要約(オリジナル)

LiDAR loop closure detection (LCD) is crucial for consistent Simultaneous Localization and Mapping (SLAM) but faces challenges in robustness and accuracy. Existing methods, including semantic graph approaches, often suffer from coarse geometric representations and lack temporal robustness against noise, dynamics, and viewpoint changes. We introduce PNE-SGAN, a Probabilistic NDT-Enhanced Semantic Graph Attention Network, to overcome these limitations. PNE-SGAN enhances semantic graphs by using Normal Distributions Transform (NDT) covariance matrices as rich, discriminative geometric node features, processed via a Graph Attention Network (GAT). Crucially, it integrates graph similarity scores into a probabilistic temporal filtering framework (modeled as an HMM/Bayes filter), incorporating uncertain odometry for motion modeling and utilizing forward-backward smoothing to effectively handle ambiguities. Evaluations on challenging KITTI sequences (00 and 08) demonstrate state-of-the-art performance, achieving Average Precision of 96.2\% and 95.1\%, respectively. PNE-SGAN significantly outperforms existing methods, particularly in difficult bidirectional loop scenarios where others falter. By synergizing detailed NDT geometry with principled probabilistic temporal reasoning, PNE-SGAN offers a highly accurate and robust solution for LiDAR LCD, enhancing SLAM reliability in complex, large-scale environments.

arxiv情報

著者 Xiong Li,Shulei Liu,Xingning Chen,Yisong Wu,Dong Zhu
発行日 2025-04-11 06:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PNE-SGAN: Probabilistic NDT-Enhanced Semantic Graph Attention Network for LiDAR Loop Closure Detection はコメントを受け付けていません

RINO: Accurate, Robust Radar-Inertial Odometry with Non-Iterative Estimation

要約

霧、雨、雪などの有害な気象条件の臭気測定は、伝統的な視覚とライダーベースの方法がパフォーマンスの低下に苦しむことが多いため、大きな課題を提示します。
そのような環境での回復力のため、レーダー介入臭気(RIO)は有望な解決策として浮上しています。
この論文では、適応的にゆるく結合された方法で実装された非適格リオフレームワークであるRinoを提示します。
Radar臭気のベースラインとしてOroraに基づいて、Rinoは、キーポイント抽出の改善、運動歪み補償、適応型投票メカニズムを介した推定をもたらすいくつかの重要な進歩を導入します。
この投票戦略は、効率的な多項式時間最適化を促進し、同時にレーダーモジュールのポーズ推定の不確実性を定量化します。
その後、推定不確実性は、カルマンフィルターフレームワーク内で最大A事後(MAP)推定に統合されます。
以前のゆるい結合臭トシステムとは異なり、RINOはレーダーコンポーネントのグローバルで堅牢な登録機能を保持するだけでなく、融合中の各センサーのリアルタイムの動作状態を動的に説明します。
公開されているデータセットで実施された実験結果は、RINOがベースライン法と比較した場合、それぞれ1.06%と0.09 {\ deg}/100m減少し、それぞれ0.09 {\ deg}/100mを減らすことを示しているため、その精度が大幅に向上することが示されています。
さらに、RINOは最先端の方法に匹敵するパフォーマンスを実現します。

要約(オリジナル)

Odometry in adverse weather conditions, such as fog, rain, and snow, presents significant challenges, as traditional vision and LiDAR-based methods often suffer from degraded performance. Radar-Inertial Odometry (RIO) has emerged as a promising solution due to its resilience in such environments. In this paper, we present RINO, a non-iterative RIO framework implemented in an adaptively loosely coupled manner. Building upon ORORA as the baseline for radar odometry, RINO introduces several key advancements, including improvements in keypoint extraction, motion distortion compensation, and pose estimation via an adaptive voting mechanism. This voting strategy facilitates efficient polynomial-time optimization while simultaneously quantifying the uncertainty in the radar module’s pose estimation. The estimated uncertainty is subsequently integrated into the maximum a posteriori (MAP) estimation within a Kalman filter framework. Unlike prior loosely coupled odometry systems, RINO not only retains the global and robust registration capabilities of the radar component but also dynamically accounts for the real-time operational state of each sensor during fusion. Experimental results conducted on publicly available datasets demonstrate that RINO reduces translation and rotation errors by 1.06% and 0.09{\deg}/100m, respectively, when compared to the baseline method, thus significantly enhancing its accuracy. Furthermore, RINO achieves performance comparable to state-of-the-art methods.

arxiv情報

著者 Shuocheng Yang,Yueming Cao,Shengbo Eben Li,Jianqiang Wang,Shaobing Xu
発行日 2025-04-11 07:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RINO: Accurate, Robust Radar-Inertial Odometry with Non-Iterative Estimation はコメントを受け付けていません

DSM: Building A Diverse Semantic Map for 3D Visual Grounding

要約

近年、ロボット工学におけるマルチモーダル大手言語モデル(VLMS)の研究と応用により、ロボットシーンを理解するためにVLMを利用する傾向が増えています。
3D視覚的接地タスクにVLMを使用する既存のアプローチは、幾何学的および視覚情報を通じてシーン情報の取得、シーンからの多様なセマンティック情報の抽出と、外観、物理学、アフォーダンスなどの豊富な暗黙のセマンティック属性の理解を見下ろすことに焦点を当てています。
ジオメトリと言語を組み合わせた3Dシーングラフは、環境認識の理想的な表現方法であり、3D視覚接地タスクの言語モデルに効果的なキャリアです。
これらの問題に対処するために、3D視覚接地タスクを実行するロボットエージェント向けに特別に設計された多様なセマンティックマップ構築方法を提案します。
この方法は、VLMを活用して、シーン内のオブジェクトの潜在セマンティック属性と関係をキャプチャし、ジオメトリスライディングウィンドウマップ構築戦略を通じて多様なセマンティックマップ(DSM)を作成します。
DSMに基づいて接地情報の理解を高め、DSMグラウンドという名前の新しいアプローチを導入します。
実験結果は、この方法が、セマンティックセグメンテーションや3D視覚接地などのタスクでの現在のアプローチを上回ることを示しています。特に、最先端と比較して全体的なメトリックに優れています。
さらに、この方法をロボットに展開して、タスクと把握の有効性を検証しました。

要約(オリジナル)

In recent years, with the growing research and application of multimodal large language models (VLMs) in robotics, there has been an increasing trend of utilizing VLMs for robotic scene understanding tasks. Existing approaches that use VLMs for 3D Visual Grounding tasks often focus on obtaining scene information through geometric and visual information, overlooking the extraction of diverse semantic information from the scene and the understanding of rich implicit semantic attributes, such as appearance, physics, and affordance. The 3D scene graph, which combines geometry and language, is an ideal representation method for environmental perception and is an effective carrier for language models in 3D Visual Grounding tasks. To address these issues, we propose a diverse semantic map construction method specifically designed for robotic agents performing 3D Visual Grounding tasks. This method leverages VLMs to capture the latent semantic attributes and relations of objects within the scene and creates a Diverse Semantic Map (DSM) through a geometry sliding-window map construction strategy. We enhance the understanding of grounding information based on DSM and introduce a novel approach named DSM-Grounding. Experimental results show that our method outperforms current approaches in tasks like semantic segmentation and 3D Visual Grounding, particularly excelling in overall metrics compared to the state-of-the-art. In addition, we have deployed this method on robots to validate its effectiveness in navigation and grasping tasks.

arxiv情報

著者 Qinghongbing Xie,Zijian Liang,Long Zeng
発行日 2025-04-11 07:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DSM: Building A Diverse Semantic Map for 3D Visual Grounding はコメントを受け付けていません

Learning Bipedal Locomotion on Gear-Driven Humanoid Robot Using Foot-Mounted IMUs

要約

複雑なアクチュエーターのダイナミクスとトルクセンサーの欠如により、高gear比のヒューマノイドロボットのシムからリアルの強化学習(RL)アクチュエーターのヒューマノイドロボット。
これに対処するために、フットマウントされた慣性測定単位(IMU)を活用する新しいRLフレームワークを提案します。
詳細なアクチュエータモデリングとシステム識別を追求する代わりに、フットマウントIMU測定値を利用して、困難な地形よりも迅速な安定化能力を高めます。
さらに、提案された観察スペースとランダムなネットワーク蒸留専用の対称データ増強を提案して、粗い地形での二足歩行の移動学習を強化します。
さまざまな環境にわたるミニチュアサイズのヒューマノイド評価03でのハードウェア実験を通じてアプローチを検証します。
実験結果は、我々の方法が非剛性表面および突然の環境移行に比べて迅速な安定化能力を改善することを示しています。

要約(オリジナル)

Sim-to-real reinforcement learning (RL) for humanoid robots with high-gear ratio actuators remains challenging due to complex actuator dynamics and the absence of torque sensors. To address this, we propose a novel RL framework leveraging foot-mounted inertial measurement units (IMUs). Instead of pursuing detailed actuator modeling and system identification, we utilize foot-mounted IMU measurements to enhance rapid stabilization capabilities over challenging terrains. Additionally, we propose symmetric data augmentation dedicated to the proposed observation space and random network distillation to enhance bipedal locomotion learning over rough terrain. We validate our approach through hardware experiments on a miniature-sized humanoid EVAL-03 over a variety of environments. The experimental results demonstrate that our method improves rapid stabilization capabilities over non-rigid surfaces and sudden environmental transitions.

arxiv情報

著者 Sotaro Katayama,Yuta Koda,Norio Nagatsuka,Masaya Kinoshita
発行日 2025-04-11 07:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Bipedal Locomotion on Gear-Driven Humanoid Robot Using Foot-Mounted IMUs はコメントを受け付けていません