Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation

要約

言語条件付きロボット操作は、自然言語で伝えられた指示を理解して実行するためにロボットを教えることにより、人間とロボットエージェントの間のシームレスなコミュニケーションと協力を可能にすることを目的とした新興分野です。
この学際的な分野は、人間の指示とロボット行動の間のギャップを埋めるために、シーンの理解、言語処理、およびポリシー学習を統合します。
この包括的な調査では、言語条件付きのロボット操作における最近の進歩を体系的に調査します。
既存の方法を、言語条件付きの報酬形状、言語条件付けされた政策学習、神経反体系人工知能、および大規模な言語モデル(LLM)やビジョン言語モデル(VLM)などの基礎モデル(FM)の利用に分類します。
具体的には、意味情報抽出、環境と評価、補助タスク、およびタスク表現戦略に関する最先端の手法を分析します。
比較分析を実施することにより、言語の指示をロボットアクションでブリッジングする際の現在のアプローチの強みと制限を強調します。
最後に、一般化能力の向上を可能にし、言語条件付きロボットマニピュレーターの安全性の問題に対処することに焦点を当てた、オープンな課題と将来の研究の方向性について説明します。

要約(オリジナル)

Language-conditioned robot manipulation is an emerging field aimed at enabling seamless communication and cooperation between humans and robotic agents by teaching robots to comprehend and execute instructions conveyed in natural language. This interdisciplinary area integrates scene understanding, language processing, and policy learning to bridge the gap between human instructions and robotic actions. In this comprehensive survey, we systematically explore recent advancements in language-conditioned robotic manipulation. We categorize existing methods into language-conditioned reward shaping, language-conditioned policy learning, neuro-symbolic artificial intelligence, and the utilization of foundational models (FMs) such as large language models (LLMs) and vision-language models (VLMs). Specifically, we analyze state-of-the-art techniques concerning semantic information extraction, environment and evaluation, auxiliary tasks, and task representation strategies. By conducting a comparative analysis, we highlight the strengths and limitations of current approaches in bridging language instructions with robot actions. Finally, we discuss open challenges and future research directions, focusing on potentially enhancing generalization capabilities and addressing safety issues in language-conditioned robot manipulators.

arxiv情報

著者 Hongkuan Zhou,Xiangtong Yao,Oier Mees,Yuan Meng,Ted Xiao,Yonatan Bisk,Jean Oh,Edward Johns,Mohit Shridhar,Dhruv Shah,Jesse Thomason,Kai Huang,Joyce Chai,Zhenshan Bing,Alois Knoll
発行日 2025-02-17 10:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation はコメントを受け付けていません

Omnidirectional Sensor Placement: A Large-Scale Computational Study and Novel Hybrid Accelerated-Refinement Heuristics

要約

このペーパーでは、全方向性センサー配置問題(OSPP)を研究します。これには、センサー数を最小限に抑えながら、ユーザー定義のカバレッジ要件を実現するために、連続2D環境に静的センサーを配置することが含まれます。
この問題は、特に環境検査、ターゲット検索、地域のパトロールなどの可視性ベースのルート計画タスクを最適化するために、モバイルロボット工学のアプリケーションによって動機付けられています。
Lidar、360度カメラ、マルチセンサーアレイなどの実際のセンシングテクノロジーに関連しながら、センサーの向きの制約を排除する全方向性視認性モデルに焦点を当てています。
3つの重要なモデルが考慮されます。無制限の可視性、物理的またはアプリケーション固有の制約を反映する限られた範囲の可視性、およびロボット工学のセンサー配置の不確実性を説明するためのローカリゼーションの不確実性の可視性。
私たちの最初の貢献は、OSPPの古典的な凸分配とサンプリングベースのヒューリスティックを比較し、ランタイム効率とソリューション品質のトレードオフを分析する大規模な計算研究です。
私たちの2番目の貢献は、新しいクラスのハイブリッド加速施設(HAR)ヒューリスティックです。これは、複数のセンサー配置方法からの出力を組み合わせて洗練しながら、前処理技術を組み込み、洗練を加速させます。
結果は、HARヒューリスティックが従来の方法を大幅に上回り、センサー数が最も低く、サンプリングベースのアプローチのランタイムを改善することを示しています。
さらに、特定のHARヒューリスティックをローカリゼーション不確実性の可視性モデルに適応させ、小規模から中程度のローカリゼーションの不確実性に必要なカバレッジを達成することを示しています。
将来の作業では、HARを可視性ベースのルート計画タスクに適用したり、新しいセンサー配置アプローチを検討して、不確実性の下で正式なカバレッジ保証を達成します。

要約(オリジナル)

This paper studies the omnidirectional sensor-placement problem (OSPP), which involves placing static sensors in a continuous 2D environment to achieve a user-defined coverage requirement while minimizing sensor count. The problem is motivated by applications in mobile robotics, particularly for optimizing visibility-based route planning tasks such as environment inspection, target search, and region patrolling. We focus on omnidirectional visibility models, which eliminate sensor orientation constraints while remaining relevant to real-world sensing technologies like LiDAR, 360-degree cameras, and multi-sensor arrays. Three key models are considered: unlimited visibility, limited-range visibility to reflect physical or application-specific constraints, and localization-uncertainty visibility to account for sensor placement uncertainty in robotics. Our first contribution is a large-scale computational study comparing classical convex-partitioning and sampling-based heuristics for the OSPP, analyzing their trade-off between runtime efficiency and solution quality. Our second contribution is a new class of hybrid accelerated-refinement (HAR) heuristics, which combine and refine outputs from multiple sensor-placement methods while incorporating preprocessing techniques to accelerate refinement. Results demonstrate that HAR heuristics significantly outperform traditional methods, achieving the lowest sensor counts and improving the runtime of sampling-based approaches. Additionally, we adapt a specific HAR heuristic to the localization-uncertainty visibility model, showing that it achieves the required coverage for small to moderate localization uncertainty. Future work may apply HAR to visibility-based route planning tasks or explore novel sensor-placement approaches to achieve formal coverage guarantees under uncertainty.

arxiv情報

著者 Jan Mikula,Miroslav Kulich
発行日 2025-02-17 11:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.RO | Omnidirectional Sensor Placement: A Large-Scale Computational Study and Novel Hybrid Accelerated-Refinement Heuristics はコメントを受け付けていません

Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation

要約

マルチタスクロボット操作の視覚運動ポリシーを学ぶことは、ロボットコミュニティにとって長年の課題でした。
難易度はアクション空間の多様性にあります。通常、目標は複数の方法で達成できるため、単一のタスクのマルチモーダルアクション分布になります。
アクション分布の複雑さは、タスクの数が増えるとエスカレートします。
この作業では、マルチタスク操作スキルが可能な普遍的なエージェントをトレーニングするためのロボット学習方法である\ textBF {Disclete Policy}を提案します。
離散ポリシーは、ベクトル量子化を使用して、アクションシーケンスを離散潜在スペースにマッピングし、タスク固有のコードの学習を促進します。
これらのコードは、観測と言語指導を条件とするアクションスペースに再構築されます。
シミュレーションと複数の現実世界の実施形態の両方で、単一腕と両腕の両方のロボット設定を含む方法を評価します。
提案された個別のポリシーは、確立された拡散ポリシーのベースラインと、ACT、Octo、OpenVLAなどの多くの最先端のアプローチよりも優れていることを実証します。
たとえば、5つのタスクを備えた現実世界のマルチタスクトレーニング設定では、個別のポリシーは、拡散ポリシーよりも26 \%高く、OpenVLAよりも15%高い平均成功率を達成します。
タスクの数が12に増加すると、離散ポリシーと拡散ポリシーのパフォーマンスギャップは32.5 \%に広がり、アプローチの利点をさらに紹介します。
私たちの研究は、潜在空間内でマルチタスクポリシーを学習することが、汎用エージェントを達成するための重要なステップであることを経験的に示しています。

要約(オリジナル)

Learning visuomotor policy for multi-task robotic manipulation has been a long-standing challenge for the robotics community. The difficulty lies in the diversity of action space: typically, a goal can be accomplished in multiple ways, resulting in a multimodal action distribution for a single task. The complexity of action distribution escalates as the number of tasks increases. In this work, we propose \textbf{Discrete Policy}, a robot learning method for training universal agents capable of multi-task manipulation skills. Discrete Policy employs vector quantization to map action sequences into a discrete latent space, facilitating the learning of task-specific codes. These codes are then reconstructed into the action space conditioned on observations and language instruction. We evaluate our method on both simulation and multiple real-world embodiments, including both single-arm and bimanual robot settings. We demonstrate that our proposed Discrete Policy outperforms a well-established Diffusion Policy baseline and many state-of-the-art approaches, including ACT, Octo, and OpenVLA. For example, in a real-world multi-task training setting with five tasks, Discrete Policy achieves an average success rate that is 26\% higher than Diffusion Policy and 15\% higher than OpenVLA. As the number of tasks increases to 12, the performance gap between Discrete Policy and Diffusion Policy widens to 32.5\%, further showcasing the advantages of our approach. Our work empirically demonstrates that learning multi-task policies within the latent space is a vital step toward achieving general-purpose agents.

arxiv情報

著者 Kun Wu,Yichen Zhu,Jinming Li,Junjie Wen,Ning Liu,Zhiyuan Xu,Qinru Qiu,Jian Tang
発行日 2025-02-17 11:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation はコメントを受け付けていません

IRIS: An Immersive Robot Interaction System

要約

このペーパーでは、複数のシミュレータ、ベンチマーク、実際のシナリオにわたってロボットデータ収集と相互作用のために設計された拡張現実(XR)を活用する没入型ロボット相互作用システムであるIRISを紹介します。
既存のXRベースのデータ収集システムは、大規模なデータ収集に効率的かつ直感的なソリューションを提供しますが、多くの場合、再現して再利用するのが困難です。
現在のシステムは、シミュレーター固有のユースケースと環境に高度に調整されているため、この制限が生じます。
Irisは、複数のシミュレータ、ベンチマーク、さらにはヘッドセットをサポートする斬新で簡単に拡張可能なフレームワークです。
さらに、IRISは、深度カメラを介してキャプチャされたポイントクラウドなど、実際のセンサーからの追加情報を含めることができます。
統一されたシーン仕様は、シミュレーターまたは実際のセンサーから直接生成され、XRヘッドセットに送信され、XRで同じシーンが作成されます。
この仕様により、IRISはシミュレータが提供するオブジェクト、アセット、およびロボットのいずれかをサポートできます。
さらに、IRISは、共有された空間アンカーと、複数のXRヘッドセット間のシミュレーションをリンクする堅牢な通信プロトコルを導入します。
この機能により、複数のXRヘッドセットが同期シーンを共有し、共同およびマルチユーザーのデータ収集を促進できます。
IRISは、Unity Frameworkをサポートする任意のデバイスに展開でき、市販のヘッドセットの大部分を網羅しています。
この作業では、IRISがMeta Quest 3とHololens 2で展開され、テストされました。IRISは、Mujoco、Isaacsim、Coppeliasim、および象徴などの現在の人気のロボットシミュレーターを使用して、幅広い現実世界およびシミュレートされたシナリオにわたってその汎用性を紹介しました。

さらに、ユーザー調査では、リベロベンチマークのデータ収集タスクに関するIRISを評価します。
この研究は、虹彩が目的メトリックと主観的なメトリックの両方でベースラインを大幅に上回ることを示しています。

要約(オリジナル)

This paper introduces IRIS, an immersive Robot Interaction System leveraging Extended Reality (XR), designed for robot data collection and interaction across multiple simulators, benchmarks, and real-world scenarios. While existing XR-based data collection systems provide efficient and intuitive solutions for large-scale data collection, they are often challenging to reproduce and reuse. This limitation arises because current systems are highly tailored to simulator-specific use cases and environments. IRIS is a novel, easily extendable framework that already supports multiple simulators, benchmarks, and even headsets. Furthermore, IRIS is able to include additional information from real-world sensors, such as point clouds captured through depth cameras. A unified scene specification is generated directly from simulators or real-world sensors and transmitted to XR headsets, creating identical scenes in XR. This specification allows IRIS to support any of the objects, assets, and robots provided by the simulators. In addition, IRIS introduces shared spatial anchors and a robust communication protocol that links simulations between multiple XR headsets. This feature enables multiple XR headsets to share a synchronized scene, facilitating collaborative and multi-user data collection. IRIS can be deployed on any device that supports the Unity Framework, encompassing the vast majority of commercially available headsets. In this work, IRIS was deployed and tested on the Meta Quest 3 and the HoloLens 2. IRIS showcased its versatility across a wide range of real-world and simulated scenarios, using current popular robot simulators such as MuJoCo, IsaacSim, CoppeliaSim, and Genesis. In addition, a user study evaluates IRIS on a data collection task for the LIBERO benchmark. The study shows that IRIS significantly outperforms the baseline in both objective and subjective metrics.

arxiv情報

著者 Xinkai Jiang,Qihao Yuan,Enes Ulas Dincer,Hongyi Zhou,Ge Li,Xueyin Li,Julius Haag,Nicolas Schreiber,Kailai Li,Gerhard Neumann,Rudolf Lioutikov
発行日 2025-02-17 11:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | IRIS: An Immersive Robot Interaction System はコメントを受け付けていません

Can you pass that tool?: Implications of Indirect Speech in Physical Human-Robot Collaboration

要約

間接的な発話行為(ISA)は、人間のコミュニケーションの自然な実用的な特徴であり、微妙さと柔軟性を維持しながら、要求を暗黙的に伝えることができます。
音声認識の進歩により、直接的な明示的なコマンド(コミュニケーションの明確さ)を通じてロボットとの自然言語の相互作用が可能になりましたが、大規模な言語モデルの台頭は、ロボットがISAを解釈する可能性を示しています。
ただし、ISAがヒューマンロボットコラボレーション(HRC)に及ぼす影響に関する経験的証拠は限られたままです。
これに対処するために、参加者とロボットを共同の物理的タスクに巻き込んで、魔法使いの研究(n = 36)を実施しました。
私たちの調査結果は、ISAを理解できるロボットが人間の知覚ロボット擬人化、チームのパフォーマンス、および信頼を大幅に改善することを示しています。
ただし、ISASの有効性はタスクおよびコンテキスト依存性であるため、慎重に使用する必要があります。
これらの結果は、HRCの直接および間接的な要求を適切に統合して、共同体験とタスクのパフォーマンスを向上させることの重要性を強調しています。

要約(オリジナル)

Indirect speech acts (ISAs) are a natural pragmatic feature of human communication, allowing requests to be conveyed implicitly while maintaining subtlety and flexibility. Although advancements in speech recognition have enabled natural language interactions with robots through direct, explicit commands–providing clarity in communication–the rise of large language models presents the potential for robots to interpret ISAs. However, empirical evidence on the effects of ISAs on human-robot collaboration (HRC) remains limited. To address this, we conducted a Wizard-of-Oz study (N=36), engaging a participant and a robot in collaborative physical tasks. Our findings indicate that robots capable of understanding ISAs significantly improve human’s perceived robot anthropomorphism, team performance, and trust. However, the effectiveness of ISAs is task- and context-dependent, thus requiring careful use. These results highlight the importance of appropriately integrating direct and indirect requests in HRC to enhance collaborative experiences and task performance.

arxiv情報

著者 Yan Zhang,Tharaka Sachintha Ratnayake,Cherie Sew,Jarrod Knibbe,Jorge Goncalves,Wafa Johal
発行日 2025-02-17 12:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Can you pass that tool?: Implications of Indirect Speech in Physical Human-Robot Collaboration はコメントを受け付けていません

FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation

要約

単一の人間のデモビデオからの学習ツールの使用は、ロボット教育に対する非常に直感的で効率的なアプローチを提供します。
人間は、同じ関数をサポートする多様なツール(例えば、マグカップとティーポットで注ぐ)に実証されたツール操作スキルを簡単に一般化することができますが、現在のワンショット模倣学習(OSIL)メソッドはこれを達成するのに苦労しています。
重要な課題は、同じ関数(つまり、機能内変動)を持つツール間の大幅な幾何学的変動を考慮して、デモンストレーションとテストツールの間に機能的な対応を確立することにあります。
この課題に対処するために、3D機能キーポイント表現との関数中心の対応を確立するOSILメソッドである機能(ツール操作のための関数中心のOSIL)を提案し、ロボットが単一の人間のデモンストレーションビデオから新しいツールにツール操作スキルを一般化できるようにします。
機能内の変動にもかかわらず、同じ機能があります。
この定式化により、(1)機能的なキーポイント抽出、(2)関数中心の対応確立、および(3)機能キーポイントベースのアクションプランニングの3つの段階に因数分解します。
多様なツール操作タスクに関する実際のロボット実験を通じて、モジュール式OSILメソッドとエンドツーエンドの行動クローンメソッドを終了することに対して機能を評価します。
結果は、機能内の幾何学的なバリエーションを持つ新しいツールに一般化する際の機能の優位性を示しています。
詳細については、https://sites.google.com/view/functoをご覧ください。

要約(オリジナル)

Learning tool use from a single human demonstration video offers a highly intuitive and efficient approach to robot teaching. While humans can effortlessly generalize a demonstrated tool manipulation skill to diverse tools that support the same function (e.g., pouring with a mug versus a teapot), current one-shot imitation learning (OSIL) methods struggle to achieve this. A key challenge lies in establishing functional correspondences between demonstration and test tools, considering significant geometric variations among tools with the same function (i.e., intra-function variations). To address this challenge, we propose FUNCTO (Function-Centric OSIL for Tool Manipulation), an OSIL method that establishes function-centric correspondences with a 3D functional keypoint representation, enabling robots to generalize tool manipulation skills from a single human demonstration video to novel tools with the same function despite significant intra-function variations. With this formulation, we factorize FUNCTO into three stages: (1) functional keypoint extraction, (2) function-centric correspondence establishment, and (3) functional keypoint-based action planning. We evaluate FUNCTO against exiting modular OSIL methods and end-to-end behavioral cloning methods through real-robot experiments on diverse tool manipulation tasks. The results demonstrate the superiority of FUNCTO when generalizing to novel tools with intra-function geometric variations. More details are available at https://sites.google.com/view/functo.

arxiv情報

著者 Chao Tang,Anxing Xiao,Yuhong Deng,Tianrun Hu,Wenlong Dong,Hanbo Zhang,David Hsu,Hong Zhang
発行日 2025-02-17 12:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation はコメントを受け付けていません

Early Detection of Human Handover Intentions in Human-Robot Collaboration: Comparing EEG, Gaze, and Hand Motion

要約

ヒューマンロボットコラボレーション(HRC)は、シームレスな相互作用を確保するために、人間の意図を正確かつタイムリーに認識することに依存しています。
一般的なHRCタスクの中で、オブジェクトのレセプション中にロボットのアクションを計画するために、人間からロボットオブジェクトの手観察者が広範囲に研究されてきました。
ただし、ハンドオーバーの意図を他のアクションと区別することは、限られた注目を集めています。
ハンドオーバーに関するほとんどの研究は、動きの軌跡の視覚的検出に焦点を当てており、軌跡が重複すると遅延または誤検出をもたらすことがよくあります。
このペーパーでは、オブジェクトハンドオーバーに対する人間の意図が非運動ベースの生理学的信号に反映されているかどうかを調査します。
脳波(EEG)、視線、およびハンドモーション信号の3つのデータモダリティを比較するマルチモーダル分析を実施します。
私たちの研究の目的は、HRC環境でのハンドオーバー向けの人間の動きと非ハンドオーバー運動を区別し、人間の動きの開始の前後にこれらのアクションを予測および分類する際の各モダリティのパフォーマンスを評価することです。
これらのモダリティに基づいて人間の意図検出器を開発および評価し、ハンドオーバーの意図を特定する際の精度とタイミングを比較します。
私たちの知る限り、これは、人間とロボットの手元と同じ実験的コンテキスト内で、複数のモダリティにわたって意図検出器を体系的に開発およびテストする最初の研究です。
私たちの分析では、3つのモダリティすべてからハンドオーバーの意図が検出できることが明らかになりました。
それにもかかわらず、視線信号は、ハンドオーバーまたは非ハンドオーバーを目的としたモーションを分類するための最も早く、最も正確なものです。

要約(オリジナル)

Human-robot collaboration (HRC) relies on accurate and timely recognition of human intentions to ensure seamless interactions. Among common HRC tasks, human-to-robot object handovers have been studied extensively for planning the robot’s actions during object reception, assuming the human intention for object handover. However, distinguishing handover intentions from other actions has received limited attention. Most research on handovers has focused on visually detecting motion trajectories, which often results in delays or false detections when trajectories overlap. This paper investigates whether human intentions for object handovers are reflected in non-movement-based physiological signals. We conduct a multimodal analysis comparing three data modalities: electroencephalogram (EEG), gaze, and hand-motion signals. Our study aims to distinguish between handover-intended human motions and non-handover motions in an HRC setting, evaluating each modality’s performance in predicting and classifying these actions before and after human movement initiation. We develop and evaluate human intention detectors based on these modalities, comparing their accuracy and timing in identifying handover intentions. To the best of our knowledge, this is the first study to systematically develop and test intention detectors across multiple modalities within the same experimental context of human-robot handovers. Our analysis reveals that handover intention can be detected from all three modalities. Nevertheless, gaze signals are the earliest as well as the most accurate to classify the motion as intended for handover or non-handover.

arxiv情報

著者 Parag Khanna,Nona Rajabi,Sumeyra U. Demir Kanik,Danica Kragic,Mårten Björkman,Christian Smith
発行日 2025-02-17 12:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Early Detection of Human Handover Intentions in Human-Robot Collaboration: Comparing EEG, Gaze, and Hand Motion はコメントを受け付けていません

The Induced Matching Distance: A Novel Topological Metric with Applications in Robotics

要約

このホワイトペーパーでは、対称的な非陰性関数で表される離散構造を比較するように設計された新しいトポロジーメトリックである誘導距離を紹介します。
この概念を適用して、エージェントの軌跡を経時的に分析します。
動的タイムワーピングを使用して軌道の類似性を測定し、0次元の永続性相同性を計算して、関連する接続されたコンポーネントを識別します。
これらのコンポーネントの時間を越えて進化を追跡するために、誘導された一致距離を計算します。これにより、動的な動作の一貫性が維持されます。
次に、時間の経過とともに軌道グループの一貫性を定量化する1次元信号を取得します。
私たちの実験は、私たちのアプローチがさまざまなエージェントの動作を効果的に区別し、ロボット工学および関連分野でのトポロジ分析のための堅牢なツールとしての可能性を強調していることを示しています。

要約(オリジナル)

This paper introduces the induced matching distance, a novel topological metric designed to compare discrete structures represented by a symmetric non-negative function. We apply this notion to analyze agent trajectories over time. We use dynamic time warping to measure trajectory similarity and compute the 0-dimensional persistent homology to identify relevant connected components, which, in our context, correspond to groups of similar trajectories. To track the evolution of these components across time, we compute induced matching distances, which preserve the coherence of their dynamic behavior. We then obtain a 1-dimensional signal that quantifies the consistency of trajectory groups over time. Our experiments demonstrate that our approach effectively differentiates between various agent behaviors, highlighting its potential as a robust tool for topological analysis in robotics and related fields.

arxiv情報

著者 Javier Perera-Lago,Álvaro Torras-Casas,Jérôme Guzzi,Rocio Gonzalez-Diaz
発行日 2025-02-17 13:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.AT | The Induced Matching Distance: A Novel Topological Metric with Applications in Robotics はコメントを受け付けていません

Residual Learning towards High-fidelity Vehicle Dynamics Modeling with Transformer

要約

車両のダイナミクスモデルは、車両状態の時間的変化を説明するため、自律駆動システムの重要なコンポーネントとして機能します。
長い間、研究者は車両のダイナミクスを正確にモデル化するために大きな努力をしてきました。
従来の物理学ベースの方法では、数学的な処方を使用して車両のダイナミクスをモデル化しますが、単純化のために複雑な車両システムを適切に説明することはできません。
深い学習に基づく方法の最近の進歩は、車両のダイナミクスを直接回帰することにより、この制限に対処しています。
ただし、パフォーマンスと一般化機能には、さらに強化が必要です。
この手紙では、深いニューラルネットワークを活用して、状態を直接推定する代わりに物理モデルの状態残差を修正する車両ダイナミクス補正システムを提案することにより、これらの問題に対処します。
このシステムは、ネットワーク学習の難しさを大幅に削減し、車両のダイナミクスの推定精度を改善します。
さらに、新しい変圧器ベースのダイナミクス残差補正ネットワークDytrを開発しました。
このネットワークは、状態残差を高次元クエリとして暗黙的に表し、ダイナミクス状態の特徴と相互作用することにより、推定残差を繰り返し更新します。
シミュレーションの実験は、提案されたシステムが物理学モデルよりもはるかにうまく機能することを示しており、提案されているDYTRモデルは、ダイナミクス状態の残差補正タスクで最高のパフォーマンスを達成し、単純な3 DOF車両モデルの状態予測誤差を平均92.3%、
それぞれ2つのデータセットで59.9%。

要約(オリジナル)

The vehicle dynamics model serves as a vital component of autonomous driving systems, as it describes the temporal changes in vehicle state. In a long period, researchers have made significant endeavors to accurately model vehicle dynamics. Traditional physics-based methods employ mathematical formulae to model vehicle dynamics, but they are unable to adequately describe complex vehicle systems due to the simplifications they entail. Recent advancements in deep learning-based methods have addressed this limitation by directly regressing vehicle dynamics. However, the performance and generalization capabilities still require further enhancement. In this letter, we address these problems by proposing a vehicle dynamics correction system that leverages deep neural networks to correct the state residuals of a physical model instead of directly estimating the states. This system greatly reduces the difficulty of network learning and thus improves the estimation accuracy of vehicle dynamics. Furthermore, we have developed a novel Transformer-based dynamics residual correction network, DyTR. This network implicitly represents state residuals as high-dimensional queries, and iteratively updates the estimated residuals by interacting with dynamics state features. The experiments in simulations demonstrate the proposed system works much better than physics model, and our proposed DyTR model achieves the best performances on dynamics state residual correction task, reducing the state prediction errors of a simple 3 DoF vehicle model by an average of 92.3% and 59.9% in two dataset, respectively.

arxiv情報

著者 Jinyu Miao,Rujun Yan,Bowei Zhang,Tuopu Wen,Kun Jiang,Mengmeng Yang,Jin Huang,Zhihua Zhong,Diange Yang
発行日 2025-02-17 13:43:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Residual Learning towards High-fidelity Vehicle Dynamics Modeling with Transformer はコメントを受け付けていません

Estimating the Lateral Motion States of an Underwater Robot by Propeller Wake Sensing Using an Artificial Lateral Line

要約

分散フローセンサーを含む人工横方向のライン(すべて)は、ロボット魚のようなバイオインスピレーションを受けた水中ロボットの運動状態を感知することに成功しています。
ただし、回転プロペラによって駆動されるロボットへの適用は、プロペラウェイクフローの複雑さのために未開拓のままです。
このペーパーでは、水中ロボットのリーダーフォロワーフォーメーションのプロペラウェイクを感知するためにすべてを使用する可能性を調査します。
リーダープロペラの横方向の動きの状態を推定するために、このペーパーでは、プロペラウェイクの分散圧力測定から時間的および空間的特徴を抽出するマルチアウトプットディープラーニングネットワークを設計します。
設計されたテストベッドで広範な実験が行われ、その結果は提案されたプロペラウェイクセンシング方法の有効性を検証します。

要約(オリジナル)

The artificial lateral line (ALL), comprising distributed flow sensors, has been successful in sensing motion states of bioinspired underwater robots like robotic fish. However, its application to robots driven by rotating propellers remains unexplored due to the complexity of propeller wake flow. This paper investigates the feasibility of using ALL to sense propeller wake for underwater robot leader-follower formation. To estimate the lateral motion states of a leader propeller, this paper designs a multi-output deep learning network that extracts temporal and spatial features from distributed pressure measurements of propeller wake. Extensive experiments are conducted on a designed testbed, the results of which validate the effectiveness of the proposed propeller wake sensing method.

arxiv情報

著者 Jun Wang,Dexin Zhao,Youxi Zhao,Feitian Zhang,Tongsheng Shen
発行日 2025-02-17 14:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Estimating the Lateral Motion States of an Underwater Robot by Propeller Wake Sensing Using an Artificial Lateral Line はコメントを受け付けていません