Cybersecurity and Embodiment Integrity for Modern Robots: A Conceptual Framework

要約

モノのインターネット(IoT)やロボットオペレーティングシステム(ROS)などの新しいテクノロジーと通信パラダイムのおかげで、現代のロボットは、単一の実施形態で不均一な標準デバイスを組み合わせることで構築できます。
このアプローチは高度なモジュール性をもたらしますが、サイバーセキュリティの保証を提供し、具体化の完全性に関する保証を提供することに関して、不確実性ももたらします。
この論文では、まず、さまざまなデバイスのサイバー攻撃が、ロボットのタスクを完了し、その具体化を維持する能力に根本的に異なる結果をもたらすことができることを示します。
また、現代のロボットは、そのような側面に関係するものに対して自己認識を持ち、2つの命題でロボットがそうするために統合すべき異なる特性を定式化する必要があると主張しています。
次に、これらの提案が2つの確立されたサイバーセキュリティフレームワーク、NISTサイバーセキュリティフレームワークとMITER ATT&CKにどのように関連しているかを示し、これらの命題を達成するには、ロボットがマッピングデバイスとタスクに少なくとも3つの特性を持つことが必要であると主張します。
最後に、これらの3つのプロパティがより大きな概念的なフレームワークでどのように達成できるかを振り返ります。

要約(オリジナル)

Thanks to new technologies and communication paradigms, such as the Internet of Things (IoT) and the Robotic Operating System (ROS), modern robots can be built by combining heterogeneous standard devices in a single embodiment. Although this approach brings high degrees of modularity, it also yields uncertainty, with regard to providing cybersecurity assurances and guarantees on the integrity of the embodiment. In this paper, first we illustrate how cyberattacks on different devices can have radically different consequences on the robot’s ability to complete its tasks and preserve its embodiment. We also claim that modern robots should have self-awareness for what concerns such aspects, and formulate in two propositions the different characteristics that robots should integrate for doing so. Then, we show how these propositions relate to two established cybersecurity frameworks, the NIST Cybersecurity Framework and the MITRE ATT&CK, and we argue that achieving these propositions requires that robots possess at least three properties for mapping devices and tasks. Last, we reflect on how these three properties could be achieved in a larger conceptual framework.

arxiv情報

著者 Alberto Giaretta,Amy Loutfi
発行日 2025-06-16 09:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.RO | Cybersecurity and Embodiment Integrity for Modern Robots: A Conceptual Framework はコメントを受け付けていません

Active Perception for Tactile Sensing: A Task-Agnostic Attention-Based Approach

要約

人間は、触れたオブジェクトの特性をマッピングして識別するために、触覚探査を広範囲に使用します。
ロボット工学では、オブジェクト分類、形状再構築、操作などのタスクの視覚を補完する重要な研究領域として、アクティブな触覚認識が浮上しています。
この作業では、TAP(タスクと存在するアクティブな知覚)を紹介します。これは、部分的に観察可能な環境によってもたらされる課題に対処するために、強化学習(RL)と変圧器ベースのアーキテクチャを活用する新しいフレームワークです。
TAPは、統合された最適化目標内でソフトアクタークリティック(SAC)およびCrossQアルゴリズムを統合し、認識モジュールと意思決定ポリシーを共同でトレーニングします。
設計上、TAPは完全にタスクに依存しており、原則として、アクティブな知覚問題に一般化できます。
おもちゃの例や、触覚MNISTベンチマークからの3Dモデルの触覚的探索を含む現実的なアプリケーションなど、多様なタスクを介してタップを評価します。
実験は、タップの有効性を示しており、触覚ムニストの触覚桁認識タスクと触覚ポーズ推定タスクの高い精度を達成します。
これらの発見は、ロボット工学におけるアクティブな触覚認識を進めるための多用途で一般化可能なフレームワークとしてのTAPの可能性を強調しています。

要約(オリジナル)

Humans make extensive use of haptic exploration to map and identify the properties of the objects that we touch. In robotics, active tactile perception has emerged as an important research domain that complements vision for tasks such as object classification, shape reconstruction, and manipulation. This work introduces TAP (Task-agnostic Active Perception) — a novel framework that leverages reinforcement learning (RL) and transformer-based architectures to address the challenges posed by partially observable environments. TAP integrates Soft Actor-Critic (SAC) and CrossQ algorithms within a unified optimization objective, jointly training a perception module and decision-making policy. By design, TAP is completely task-agnostic and can, in principle, generalize to any active perception problem. We evaluate TAP across diverse tasks, including toy examples and realistic applications involving haptic exploration of 3D models from the Tactile MNIST benchmark. Experiments demonstrate the efficacy of TAP, achieving high accuracies on the Tactile MNIST haptic digit recognition task and a tactile pose estimation task. These findings underscore the potential of TAP as a versatile and generalizable framework for advancing active tactile perception in robotics.

arxiv情報

著者 Tim Schneider,Cristiana de Farias,Roberto Calandra,Liming Chen,Jan Peters
発行日 2025-06-16 09:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Active Perception for Tactile Sensing: A Task-Agnostic Attention-Based Approach はコメントを受け付けていません

Uncertainty-Informed Active Perception for Open Vocabulary Object Goal Navigation

要約

屋内環境を探索するモバイルロボットは、オブジェクトカテゴリなどのカメラ画像の高レベルのセマンティックキューを知覚するために、ビジョン言語モデルにますます依存しています。
このようなモデルは、オブジェクトゴールナビゲーション(ObjectNav)などのタスクのロボット動作を実質的に前進させる可能性を提供します。ここでは、環境を探索することにより、ロボットが自然言語で指定されたオブジェクトを特定する必要があります。
現在のObjectNavメソッドは、知覚のために迅速なエンジニアリングに大きく依存しており、迅速な言い回しによって引き起こされるセマンティックの不確実性に対処しません。
セマンティックの不確実性を無視すると、最適ではない探査につながり、パフォーマンスが制限されます。
したがって、屋内環境でのObjectNavのセマンティックな不確実性に基づいたアクティブな知覚パイプラインを提案します。
視覚言語モデルのセマンティックの不確実性を定量化するための新しい確率的センサーモデルを導入し、空間的理解を強化するために確率的幾何学的セマンチックなマップにそれを組み込みます。
このマップに基づいて、効率的なオブジェクト検索をガイドするために、不確実な情報に基づいたマルチアームのバンディット目標を持つフロンティア探査プランナーを開発します。
実験結果は、私たちの方法が、広範な迅速なエンジニアリングを必要とせずに、最先端のアプローチの方法に匹敵するObjectNavの成功率を達成することを示しています。

要約(オリジナル)

Mobile robots exploring indoor environments increasingly rely on vision-language models to perceive high-level semantic cues in camera images, such as object categories. Such models offer the potential to substantially advance robot behaviour for tasks such as object-goal navigation (ObjectNav), where the robot must locate objects specified in natural language by exploring the environment. Current ObjectNav methods heavily depend on prompt engineering for perception and do not address the semantic uncertainty induced by variations in prompt phrasing. Ignoring semantic uncertainty can lead to suboptimal exploration, which in turn limits performance. Hence, we propose a semantic uncertainty-informed active perception pipeline for ObjectNav in indoor environments. We introduce a novel probabilistic sensor model for quantifying semantic uncertainty in vision-language models and incorporate it into a probabilistic geometric-semantic map to enhance spatial understanding. Based on this map, we develop a frontier exploration planner with an uncertainty-informed multi-armed bandit objective to guide efficient object search. Experimental results demonstrate that our method achieves ObjectNav success rates comparable to those of state-of-the-art approaches, without requiring extensive prompt engineering.

arxiv情報

著者 Utkarsh Bajpai,Julius Rückin,Cyrill Stachniss,Marija Popović
発行日 2025-06-16 11:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Uncertainty-Informed Active Perception for Open Vocabulary Object Goal Navigation はコメントを受け付けていません

Zero-Shot Temporal Interaction Localization for Egocentric Videos

要約

ビデオ内のヒューマンオブジェクト相互作用(HOI)アクションを見つけることは、人間の行動分析や人間のロボットスキル移転など、複数の下流タスクの基礎として機能します。
現在の時間的アクションローカリゼーション方法は、通常、注釈付きアクションとオブジェクトの相互作用のオブジェクトカテゴリに依存して、ドメインバイアスと低い展開効率につながります。
いくつかの最近の作品では、大きな視覚言語モデル(VLMS)を使用してゼロショットの時間的アクションローカリゼーション(ZS-TAL)を達成しましたが、それらの粗粒化推定とオープンループパイプラインは、時間的相互作用の局在化のためのさらなるパフォーマンスの改善(TIL)を妨げています。
これらの問題に対処するために、エゴロックと呼ばれる新しいゼロショットのアプローチを提案して、エゴセントリックビデオの人間とオブジェクトの相互作用のアクションの把握のタイミングを見つけます。
Egolocは、VLM推論の合理的な視覚的プロンプトを生成するための自己適応サンプリング戦略を導入します。
2Dと3Dの両方の観測値を吸収することにより、3Dハンドヴェロシティに従ってHOIの接触/分離タイムスタンプの可能性を中心に高品質の初期推測を直接サンプリングし、高い推論の精度と効率につながります。
さらに、エゴロックは視覚的および動的なキューから閉ループフィードバックを生成し、ローカリゼーション結果をさらに改善します。
公開されているデータセットと新たに提案されたベンチマークでの包括的な実験は、エゴロックが最先端のベースラインと比較して、エゴセントリックビデオのより良い時間的相互作用の局在化を達成することを示しています。
https://github.com/irmvlab/egolocでオープンソースとしてコードと関連するデータをリリースします。

要約(オリジナル)

Locating human-object interaction (HOI) actions within video serves as the foundation for multiple downstream tasks, such as human behavior analysis and human-robot skill transfer. Current temporal action localization methods typically rely on annotated action and object categories of interactions for optimization, which leads to domain bias and low deployment efficiency. Although some recent works have achieved zero-shot temporal action localization (ZS-TAL) with large vision-language models (VLMs), their coarse-grained estimations and open-loop pipelines hinder further performance improvements for temporal interaction localization (TIL). To address these issues, we propose a novel zero-shot TIL approach dubbed EgoLoc to locate the timings of grasp actions for human-object interaction in egocentric videos. EgoLoc introduces a self-adaptive sampling strategy to generate reasonable visual prompts for VLM reasoning. By absorbing both 2D and 3D observations, it directly samples high-quality initial guesses around the possible contact/separation timestamps of HOI according to 3D hand velocities, leading to high inference accuracy and efficiency. In addition, EgoLoc generates closed-loop feedback from visual and dynamic cues to further refine the localization results. Comprehensive experiments on the publicly available dataset and our newly proposed benchmark demonstrate that EgoLoc achieves better temporal interaction localization for egocentric videos compared to state-of-the-art baselines. We will release our code and relevant data as open-source at https://github.com/IRMVLab/EgoLoc.

arxiv情報

著者 Erhang Zhang,Junyi Ma,Yin-Dong Zheng,Yixuan Zhou,Hesheng Wang
発行日 2025-06-16 11:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Zero-Shot Temporal Interaction Localization for Egocentric Videos はコメントを受け付けていません

General agents need world models

要約

世界モデルは、柔軟で目標指向の動作に必要な要素であるか、モデルのない学習で十分ですか?
この質問に対する正式な回答を提供します。マルチステップの目標指向タスクに一般化できるエージェントは、その環境の予測モデルを学んだに違いないことを示しています。
このモデルは、エージェントのポリシーから抽出できること、およびエージェントのパフォーマンスを高めることで達成できる目標の複雑さが必要であることを示しています。
これには、安全で一般的なエージェントの開発から、複雑な環境での境界エージェント機能まで、エージェントから世界モデルを引き出すための新しいアルゴリズムを提供することまで、多くの結果があります。

要約(オリジナル)

Are world models a necessary ingredient for flexible, goal-directed behaviour, or is model-free learning sufficient? We provide a formal answer to this question, showing that any agent capable of generalizing to multi-step goal-directed tasks must have learned a predictive model of its environment. We show that this model can be extracted from the agent’s policy, and that increasing the agents performance or the complexity of the goals it can achieve requires learning increasingly accurate world models. This has a number of consequences: from developing safe and general agents, to bounding agent capabilities in complex environments, and providing new algorithms for eliciting world models from agents.

arxiv情報

著者 Jonathan Richens,David Abel,Alexis Bellot,Tom Everitt
発行日 2025-06-16 12:07:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML | General agents need world models はコメントを受け付けていません

Observability-Aware Active Calibration of Multi-Sensor Extrinsics for Ground Robots via Online Trajectory Optimization

要約

地上ロボットシステム(つまり、相対的なポーズ)のセンサー外因性パラメーターの正確なキャリブレーションは、空間的アライメントを確保し、高性能の知覚を達成するために重要です。
ただし、既存のキャリブレーション方法では、通常、データを収集するために複雑で頻繁に操作されるプロセスが必要です。
さらに、ほとんどのフレームワークは音響センサーを無視しているため、関連するシステムの聴覚認識能力が制限されます。
これらの問題を軽減するために、マイクロフォンアレイ、ライダー(外部受容センサー)、ホイールエンコーダ(固有受容センサー)を含むマルチモーダルセンサーを備えた地上ロボットの観測可能性対応アクティブキャリブレーション方法を提案します。
従来のアプローチとは異なり、私たちの方法により、よりインテリジェントなロボットシステムの開発に貢献して、オンラインデータ収集とキャリブレーションのための積極的な軌道最適化が可能になります。
具体的には、Fisher Information Matrix(FIM)を活用してパラメーターの観測可能性を定量化し、B-Spline Curvesを介した軌跡生成の最適化メトリックとして最小固有値を採用します。
オンラインでロボット軌道の計画と再生を通じて、この方法は多センサー外因性パラメーターの観察可能性を高めます。
私たちの方法の有効性と利点は、数値シミュレーションと現実世界の実験を通じて実証されています。
コミュニティの利益のために、https://github.com/aislab-sustech/multisensor-キャリブレーションでコードとデータをオープンソースしました。

要約(オリジナル)

Accurate calibration of sensor extrinsic parameters for ground robotic systems (i.e., relative poses) is crucial for ensuring spatial alignment and achieving high-performance perception. However, existing calibration methods typically require complex and often human-operated processes to collect data. Moreover, most frameworks neglect acoustic sensors, thereby limiting the associated systems’ auditory perception capabilities. To alleviate these issues, we propose an observability-aware active calibration method for ground robots with multimodal sensors, including a microphone array, a LiDAR (exteroceptive sensors), and wheel encoders (proprioceptive sensors). Unlike traditional approaches, our method enables active trajectory optimization for online data collection and calibration, contributing to the development of more intelligent robotic systems. Specifically, we leverage the Fisher information matrix (FIM) to quantify parameter observability and adopt its minimum eigenvalue as an optimization metric for trajectory generation via B-spline curves. Through planning and replanning of robot trajectory online, the method enhances the observability of multi-sensor extrinsic parameters. The effectiveness and advantages of our method have been demonstrated through numerical simulations and real-world experiments. For the benefit of the community, we have also open-sourced our code and data at https://github.com/AISLAB-sustech/Multisensor-Calibration.

arxiv情報

著者 Jiang Wang,Yaozhong Kang,Linya Fu,Kazuhiro Nakadai,He Kong
発行日 2025-06-16 12:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Observability-Aware Active Calibration of Multi-Sensor Extrinsics for Ground Robots via Online Trajectory Optimization はコメントを受け付けていません

Delayed Expansion AGT: Kinodynamic Planning with Application to Tractor-Trailer Parking

要約

散らかった環境における明確な車両の運動力学的計画は、高次元の状態空間と複雑なシステムのダイナミクスから生じる追加の課題に直面しています。
[1]、[2]に基づいて構築されたこの研究では、事前に計算されたモーションプリミティブ(MPS)と*ヒューリスティックを使用してツリーを栽培するDE-AGTアルゴリズムを提案しています。
DE-AGTの最初の機能は、MPSの遅延拡大です。
特に、MPはさまざまなモードに分かれており、オンラインでランク付けされています。
MPの分類と優先順位付けにより、DE-AGTは最初に最も有望なMPSモードを拡張し、不要な計算を排除し、ソリューションをより速く検索します。
非ホロノミーの明確な車両のコストヒューリスティックを取得するために、私たちは、迅速かつ正確なコスト予測のために、監視された学習とトレーニングニューラルネットワークに依存しています。
学んだヒューリスティックは、オンラインモードのランキングとノードの選択に使用されます。
DE-AGTのもう1つの機能は、改善された目標測定です。
ゴール状態に正確に到達するには、通常、ステアリングの問題を解決することにより、目標との一定の接続チェックが必要です。
提案された終了スキームは、軽量の軌跡追跡コントローラーを検索プロセスと緊密に統合することにより、この課題を克服します。
DE-AGTは、3トレーラーを備えた一般的な車のようなトラクターの自律駐車用に実装されています。
シミュレーション結果は、以前の方法と比較して平均10倍の加速を示しています。

要約(オリジナル)

Kinodynamic planning of articulated vehicles in cluttered environments faces additional challenges arising from high-dimensional state space and complex system dynamics. Built upon [1],[2], this work proposes the DE-AGT algorithm that grows a tree using pre-computed motion primitives (MPs) and A* heuristics. The first feature of DE-AGT is a delayed expansion of MPs. In particular, the MPs are divided into different modes, which are ranked online. With the MP classification and prioritization, DE-AGT expands the most promising mode of MPs first, which eliminates unnecessary computation and finds solutions faster. To obtain the cost-to-go heuristic for nonholonomic articulated vehicles, we rely on supervised learning and train neural networks for fast and accurate cost-to-go prediction. The learned heuristic is used for online mode ranking and node selection. Another feature of DE-AGT is the improved goal-reaching. Exactly reaching a goal state usually requires a constant connection checking with the goal by solving steering problems — non-trivial and time-consuming for articulated vehicles. The proposed termination scheme overcomes this challenge by tightly integrating a light-weight trajectory tracking controller with the search process. DE-AGT is implemented for autonomous parking of a general car-like tractor with 3-trailer. Simulation results show an average of 10x acceleration compared to a previous method.

arxiv情報

著者 Dongliang Zheng,Yebin Wang,Stefano Di Cairano,Panagiotis Tsiotras
発行日 2025-06-16 12:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Delayed Expansion AGT: Kinodynamic Planning with Application to Tractor-Trailer Parking はコメントを受け付けていません

JENGA: Object selection and pose estimation for robotic grasping from a stack

要約

ビジョンベースのロボットオブジェクトの把握は、通常、ビンピッキングシナリオの分離オブジェクトまたは非構造化オブジェクトセットのコンテキストで調査されます。
ただし、ロボットがスタックなどの構造化されたオブジェクト形成と対話する必要がある建設や倉庫の自動化など、いくつかの設定があります。
これに関連して、これらのオブジェクトの正確な6DOFポーズを推定するとともに、把握するために適切なオブジェクトを選択する問題を定義します。
この問題に対処するために、スタックの上位層の遮るもののないオブジェクトを優先するカメラとIMUベースのアプローチを提案し、ベンチマークと評価のためのデータセットを導入し、オブジェクトの選択とポーズ精度を組み合わせた適切な評価メトリックを提案します。
実験結果は、私たちの方法は非常にうまく機能する可能性があるが、完全にエラーのないソリューションが必要な場合、これは困難な問題であることを示しています。
最後に、建設シナリオでレンガピッキングアプリケーションの方法の展開の結果を示します。

要約(オリジナル)

Vision-based robotic object grasping is typically investigated in the context of isolated objects or unstructured object sets in bin picking scenarios. However, there are several settings, such as construction or warehouse automation, where a robot needs to interact with a structured object formation such as a stack. In this context, we define the problem of selecting suitable objects for grasping along with estimating an accurate 6DoF pose of these objects. To address this problem, we propose a camera-IMU based approach that prioritizes unobstructed objects on the higher layers of stacks and introduce a dataset for benchmarking and evaluation, along with a suitable evaluation metric that combines object selection with pose accuracy. Experimental results show that although our method can perform quite well, this is a challenging problem if a completely error-free solution is needed. Finally, we show results from the deployment of our method for a brick-picking application in a construction scenario.

arxiv情報

著者 Sai Srinivas Jeevanandam,Sandeep Inuganti,Shreedhar Govil,Didier Stricker,Jason Rambach
発行日 2025-06-16 12:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | JENGA: Object selection and pose estimation for robotic grasping from a stack はコメントを受け付けていません

VLM-SFD: VLM-Assisted Siamese Flow Diffusion Framework for Dual-Arm Cooperative Manipulation

要約

デュアルアーム協同操作は、シームレスな調整と適応ダイナミクスを要求する複雑な現実世界のタスクに取り組むことに非常に有望です。
学習ベースのモーション計画の実質的な進歩にもかかわらず、ほとんどのアプローチは、特にアセンブリ、ツールの使用、および両マニュアルグレーズなどの2つのオブジェクト間の相互作用を含むシナリオで、多様な操作タスク全体で一般化し、動的で構造化されていない環境に適応するのに苦労しています。
これらの課題に対処するために、デュアルアーム協同操作における効率的な模倣学習のために、新しいVLM支援シャムフロー拡散(VLM-SFD)フレームワークを紹介します。
提案されているVLM-SFDフレームワークは、優れた適応性を示し、最小限の数の人間のデモのみから、迅速に適応し、多様な現実世界のタスクに一般化する能力を大幅に向上させます。
具体的には、シアムフロー拡散ネットワーク(SFDNET)がデュアルエンコーダーデコーダーシャムアーキテクチャを採用して、2つのターゲットオブジェクトを共有潜在スペースに埋め込み、タスク命令によって普及した拡散ベースの条件付けプロセスを採用し、2ストリームオブジェクト中心の動きを採用します。
さらに、予測された2Dモーションフローが3D空間にシームレスにマップされ、事前に訓練されたビジョン言語モデル(VLM)が組み込まれ、各ロボットアームに最適なモーションを時間の経過とともに適応的に割り当てる動的タスク割り当て戦略をさらに設計します。
実験は、提案された方法の有効性を検証し、高効率と適応性を維持しながら、多様な操作タスクに一般化する能力を実証します。
コードおよびデモビデオは、プロジェクトWebサイトhttps://sites.google.com/view/vlm-sfd/で公開されています。

要約(オリジナル)

Dual-arm cooperative manipulation holds great promise for tackling complex real-world tasks that demand seamless coordination and adaptive dynamics. Despite substantial progress in learning-based motion planning, most approaches struggle to generalize across diverse manipulation tasks and adapt to dynamic, unstructured environments, particularly in scenarios involving interactions between two objects such as assembly, tool use, and bimanual grasping. To address these challenges, we introduce a novel VLM-Assisted Siamese Flow Diffusion (VLM-SFD) framework for efficient imitation learning in dual-arm cooperative manipulation. The proposed VLM-SFD framework exhibits outstanding adaptability, significantly enhancing the ability to rapidly adapt and generalize to diverse real-world tasks from only a minimal number of human demonstrations. Specifically, we propose a Siamese Flow Diffusion Network (SFDNet) employs a dual-encoder-decoder Siamese architecture to embed two target objects into a shared latent space, while a diffusion-based conditioning process-conditioned by task instructions-generates two-stream object-centric motion flows that guide dual-arm coordination. We further design a dynamic task assignment strategy that seamlessly maps the predicted 2D motion flows into 3D space and incorporates a pre-trained vision-language model (VLM) to adaptively assign the optimal motion to each robotic arm over time. Experiments validate the effectiveness of the proposed method, demonstrating its ability to generalize to diverse manipulation tasks while maintaining high efficiency and adaptability. The code and demo videos are publicly available on our project website https://sites.google.com/view/vlm-sfd/.

arxiv情報

著者 Jiaming Chen,Yiyu Jiang,Aoshen Huang,Yang Li,Wei Pan
発行日 2025-06-16 12:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VLM-SFD: VLM-Assisted Siamese Flow Diffusion Framework for Dual-Arm Cooperative Manipulation はコメントを受け付けていません

Adaptive Model-Base Control of Quadrupeds via Online System Identification using Kalman Filter

要約

多くの現実世界のアプリケーションでは、変動するペイロードを運ぶことができるように、足のロボットが必要です。
モデル予測制御(MPC)などのモデルベースのコントローラーは、これらのシステムを制御するための研究における事実上の基準となっています。
ただし、ほとんどのモデルベースの制御アーキテクチャは、固定されたプラントモデルを使用しており、さまざまなタスクへの適用性を制限しています。
このホワイトペーパーでは、4本足のロボットの質量と質量中心(COM)のオンライン識別のためのKalmanフィルター(KF)の定式化を紹介します。
さまざまなペイロードを運ぶ四葉型ロボットでの方法を評価し、古典的な再帰最小二乗(RLS)メソッドよりも強力な測定ノイズに対してより堅牢であることがわかります。
さらに、モデルパラメーターが実行時に調整されると、さまざまなペイロードを使用して、モデルベースのコントローラーの追跡パフォーマンスが向上します。

要約(オリジナル)

Many real-world applications require legged robots to be able to carry variable payloads. Model-based controllers such as model predictive control (MPC) have become the de facto standard in research for controlling these systems. However, most model-based control architectures use fixed plant models, which limits their applicability to different tasks. In this paper, we present a Kalman filter (KF) formulation for online identification of the mass and center of mass (COM) of a four-legged robot. We evaluate our method on a quadrupedal robot carrying various payloads and find that it is more robust to strong measurement noise than classical recursive least squares (RLS) methods. Moreover, it improves the tracking performance of the model-based controller with varying payloads when the model parameters are adjusted at runtime.

arxiv情報

著者 Jonas Haack,Franek Stark,Shubham Vyas,Frank Kirchner,Shivesh Kumar
発行日 2025-06-16 12:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adaptive Model-Base Control of Quadrupeds via Online System Identification using Kalman Filter はコメントを受け付けていません