3D Water Quality Mapping using Invariant Extended Kalman Filtering for Underwater Robot Localization

要約

水質、塩分、濁度などの重要なパラメーターの水質マッピングは、水産養殖場の健康と収量能力を評価するために重要です。
従来のアプローチには、時間が制約されており、深さの変動がないボートや人間のダイバーを使用することが含まれます。
この作業は、GPSと水質センサーを装備したBluerov2を使用して、浅い水環境での3D水質マッピングに対する革新的なアプローチを提示します。
このシステムにより、エラーが発生したときに再浮上することにより、正確な位置修正が可能になります。
この研究は、米国のチェサピーク湾にあるカキ農場で実施されており、水産養殖環境でより包括的で正確な水質分析を提供しています。

要約(オリジナル)

Water quality mapping for critical parameters such as temperature, salinity, and turbidity is crucial for assessing an aquaculture farm’s health and yield capacity. Traditional approaches involve using boats or human divers, which are time-constrained and lack depth variability. This work presents an innovative approach to 3D water quality mapping in shallow water environments using a BlueROV2 equipped with GPS and a water quality sensor. This system allows for accurate location correction by resurfacing when errors occur. This study is being conducted at an oyster farm in the Chesapeake Bay, USA, providing a more comprehensive and precise water quality analysis in aquaculture settings.

arxiv情報

著者 Kaustubh Joshi,Tianchen Liu,Alan Williams,Matthew Gray,Xiaomin Lin,Nikhil Chopra
発行日 2025-02-19 19:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | 3D Water Quality Mapping using Invariant Extended Kalman Filtering for Underwater Robot Localization はコメントを受け付けていません

Hybrid Visual Servoing of Tendon-driven Continuum Robots

要約

このペーパーでは、腱駆動の連続体ロボット(TDCR)を制御するための新しいハイブリッドビジュアルサーボ(HVS)アプローチを紹介します。
HVSシステムは、画像ベースの視覚サーボ(IBV)と深い学習ベースの視覚サーボ(DLBV)を組み合わせて、各方法の制限を克服し、全体的なパフォーマンスを改善します。
IBVは、機能が豊富な環境でより高い精度と速い収束を提供しますが、DLBVは乱れに対する堅牢性を高め、より大きなワークスペースを提供します。
IBVとDLBVの間のスムーズな遷移を有効にすることにより、提案されたHVSは、動的で構造化されていない環境で効果的な制御を保証します。
このアプローチの有効性は、シミュレーションと実世界の実験を通じて検証され、HVSがイテレーション時間の短縮、収束時間の速度、最終誤差の低下、DLBVのみと比較してよりスムーズなパフォーマンスを達成し、occlusionsや照明などの挑戦的な条件でのDLBVの堅牢性を維持することを示しています。
変更、アクチュエータの騒音、および物理的影響。

要約(オリジナル)

This paper introduces a novel Hybrid Visual Servoing (HVS) approach for controlling tendon-driven continuum robots (TDCRs). The HVS system combines Image-Based Visual Servoing (IBVS) with Deep Learning-Based Visual Servoing (DLBVS) to overcome the limitations of each method and improve overall performance. IBVS offers higher accuracy and faster convergence in feature-rich environments, while DLBVS enhances robustness against disturbances and offers a larger workspace. By enabling smooth transitions between IBVS and DLBVS, the proposed HVS ensures effective control in dynamic, unstructured environments. The effectiveness of this approach is validated through simulations and real-world experiments, demonstrating that HVS achieves reduced iteration time, faster convergence, lower final error, and smoother performance compared to DLBVS alone, while maintaining DLBVS’s robustness in challenging conditions such as occlusions, lighting changes, actuator noise, and physical impacts.

arxiv情報

著者 Rana Danesh,Farrokh Janabi-Sharifi,Farhad Aghili
発行日 2025-02-19 20:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | Hybrid Visual Servoing of Tendon-driven Continuum Robots はコメントを受け付けていません

Embodying Control in Soft Multistable Grippers from morphofunctional co-design

要約

ソフトロボットは、柔軟で順応性があることによって区別され、硬質ロボットではほぼ不可能なタスクを実行できます。
ただし、非線形の材料応答と無限のたわみの自由度のために、構成を制御することは困難です。
潜在的な解決策は、ソフトロボットの無限の次元構成空間を有限であるが十分に多数の機能形状に離散化することです。
この研究では、複数のエンコードされた安定した状態を備えた空気圧で作動するソフトグリッパーの共同設計戦略を調査し、希望の機能形状と剛性の再構成を可能にします。
ソフト多数のグリッパーのエネルギーベースの分析モデルが提示され、ロボットの無限次元構成空間を離散的な安定状態にマッピングし、システムの最終状態と動的動作の予測を可能にします。
私たちのアプローチでは、自動関連性決定回帰を使用して、格子塊のパラメーターを使用してソフトロボットの応答をキャプチャする一般的な方法を紹介し、逆の共同設計を促進します。
結果として得られる計算効率の高いモデルにより、構成空間を扱いやすい方法で探索することができ、セットターゲットの最適な剛性を備えた目的のターゲット位置を設定することにより、ロボットの逆共同設計を可能にします。
この戦略は、多重構造の非線形メカニズムを活用することにより、ソフトロボットを制御するためのフレームワークを提供し、機械的知能をソフト構造に具体化します。

要約(オリジナル)

Soft robots are distinguished by their flexible and adaptable, allowing them to perform tasks that are nearly impossible for rigid robots. However, controlling their configuration is challenging due to their nonlinear material response and infinite deflection degrees of freedom. A potential solution is to discretize the infinite-dimensional configuration space of soft robots into a finite but sufficiently large number of functional shapes. This study explores a co-design strategy for pneumatically actuated soft grippers with multiple encoded stable states, enabling desired functional shape and stiffness reconfiguration. An energy based analytical model for soft multistable grippers is presented, mapping the robots’ infinite-dimensional configuration space into discrete stable states, allowing for prediction of the systems final state and dynamic behavior. Our approach introduces a general method to capture the soft robots’ response with the lattice lumped parameters using automatic relevance determination regression, facilitating inverse co-design. The resulting computationally efficient model enables us to explore the configuration space in a tractable manner, allowing the inverse co-design of our robots by setting desired targeted positions with optimized stiffness of the set targets. This strategy offers a framework for controlling soft robots by exploiting the nonlinear mechanics of multistable structures, thus embodying mechanical intelligence into soft structures.

arxiv情報

著者 Juan C. Osorio,Jhonatan S. Rincon,Harith Morgan,Andres F. Arrieta
発行日 2025-02-19 20:41:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Embodying Control in Soft Multistable Grippers from morphofunctional co-design はコメントを受け付けていません

View-Invariant Policy Learning via Zero-Shot Novel View Synthesis

要約

大規模な視覚運動政策学習は、一般化可能な操作システムの開発に向けた有望なアプローチです。
しかし、多様な実施形態、環境、および観察モダリティに基づいて展開できるポリシーは、とらえどころのないままです。
この作業では、世界の大規模な視覚データからの知識を使用して、一般化可能な操作のための1つの軸に対処するためにどのように使用できるかを調査します。
具体的には、単一のカメラビューポイントから同じシーンの画像を単一の入力画像を与えられた場合にレンダリングすることにより、3Dにアウェアのシーンレベルの事前に学習する単一画像の新規ビュー合成モデルを研究します。
多様なロボットデータへの実用的なアプリケーションのために、これらのモデルはゼロショットを動作させ、目に見えないタスクと環境でビュー合成を実行する必要があります。
ビュー合成拡張(Vista)を呼び出す単純なデータの高度制度内のビュー合成モデルを経験的に分析して、シングルビューポイントデモンストレーションデータから視点に不変のポリシーを学習する能力を理解します。
分散型カメラの視点に向けて方法で訓練されたポリシーの堅牢性を評価すると、シミュレートされた操作タスクと実際の操作タスクの両方でベースラインを上回ることがわかります。
ビデオと追加の視覚化は、https://s-tian.github.io/projects/vistaで入手できます。

要約(オリジナル)

Large-scale visuomotor policy learning is a promising approach toward developing generalizable manipulation systems. Yet, policies that can be deployed on diverse embodiments, environments, and observational modalities remain elusive. In this work, we investigate how knowledge from large-scale visual data of the world may be used to address one axis of variation for generalizable manipulation: observational viewpoint. Specifically, we study single-image novel view synthesis models, which learn 3D-aware scene-level priors by rendering images of the same scene from alternate camera viewpoints given a single input image. For practical application to diverse robotic data, these models must operate zero-shot, performing view synthesis on unseen tasks and environments. We empirically analyze view synthesis models within a simple data-augmentation scheme that we call View Synthesis Augmentation (VISTA) to understand their capabilities for learning viewpoint-invariant policies from single-viewpoint demonstration data. Upon evaluating the robustness of policies trained with our method to out-of-distribution camera viewpoints, we find that they outperform baselines in both simulated and real-world manipulation tasks. Videos and additional visualizations are available at https://s-tian.github.io/projects/vista.

arxiv情報

著者 Stephen Tian,Blake Wulfe,Kyle Sargent,Katherine Liu,Sergey Zakharov,Vitor Guizilini,Jiajun Wu
発行日 2025-02-19 21:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | View-Invariant Policy Learning via Zero-Shot Novel View Synthesis はコメントを受け付けていません

ModSkill: Physical Character Skill Modularization

要約

人間の動きは非常に多様でダイナミックであり、シミュレートされたキャラクターを制御するための運動能力を一般化することを目的とする模倣学習アルゴリズムの課題をもたらします。
以前の方法は通常、参照モーション(追跡ベースのモデル)または統一されたフルボディスキル埋め込みスペース(スキル埋め込み)を追跡するために、ユニバーサルフルボディコントローラーに依存しています。
ただし、これらのアプローチは、多くの場合、より大きなモーションデータセットに一般化し、拡大するのに苦労しています。
この作業では、複雑なフルボディスキルを独立した身体部分の構成的なモジュールスキルに分離する新しいスキル学習フレームワークであるModskillを紹介します。
私たちのフレームワークには、各ボディパーツの低レベルコントローラーをガイドするモジュラースキルエンミングにポリシー観測を処理するスキルモジュール化注意レイヤーが特徴です。
また、大規模なモーション生成モデルを使用して、挑戦的な追跡シナリオにおけるポリシー学習を適応的に強化するために、生成的適応サンプリングを使用したアクティブなスキル学習アプローチを提案します。
私たちの結果は、生成的サンプリングによって強化されたこのモジュール化されたスキル学習フレームワークが、正確なフルボディモーショントラッキングで既存の方法を上回り、多様な目標主導のタスクに再利用可能なスキル埋め込みを可能にすることを示しています。

要約(オリジナル)

Human motion is highly diverse and dynamic, posing challenges for imitation learning algorithms that aim to generalize motor skills for controlling simulated characters. Previous methods typically rely on a universal full-body controller for tracking reference motion (tracking-based model) or a unified full-body skill embedding space (skill embedding). However, these approaches often struggle to generalize and scale to larger motion datasets. In this work, we introduce a novel skill learning framework, ModSkill, that decouples complex full-body skills into compositional, modular skills for independent body parts. Our framework features a skill modularization attention layer that processes policy observations into modular skill embeddings that guide low-level controllers for each body part. We also propose an Active Skill Learning approach with Generative Adaptive Sampling, using large motion generation models to adaptively enhance policy learning in challenging tracking scenarios. Our results show that this modularized skill learning framework, enhanced by generative sampling, outperforms existing methods in precise full-body motion tracking and enables reusable skill embeddings for diverse goal-driven tasks.

arxiv情報

著者 Yiming Huang,Zhiyang Dou,Lingjie Liu
発行日 2025-02-19 22:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO | ModSkill: Physical Character Skill Modularization はコメントを受け付けていません

REFLEX Dataset: A Multimodal Dataset of Human Reactions to Robot Failures and Explanations

要約

この作業は、障害と人間の表現へのロボットの説明、ロボットの障害に対する人間の反応、およびその後の共同設定での説明をキャプチャする包括的なマルチモーダルデータセットである反射を示します。
それは、人間とロボットの相互作用のダイナミクスの研究を促進し、初期の障害と説明の両方に対する反応を研究する必要性、および長期的な相互作用におけるこれらの反応の進化に取り組むことを目的としています。
さまざまなタイプの障害、説明レベル、説明戦略に対する人間の反応に関する豊富な注釈付きデータを提供することにより、データセットは、人間の協力者との肯定的な関係を維持できるより堅牢で適応的で満足のいくロボットシステムの開発に貢献します。
繰り返し障害のような課題。

要約(オリジナル)

This work presents REFLEX: Robotic Explanations to FaiLures and Human EXpressions, a comprehensive multimodal dataset capturing human reactions to robot failures and subsequent explanations in collaborative settings. It aims to facilitate research into human-robot interaction dynamics, addressing the need to study reactions to both initial failures and explanations, as well as the evolution of these reactions in long-term interactions. By providing rich, annotated data on human responses to different types of failures, explanation levels, and explanation varying strategies, the dataset contributes to the development of more robust, adaptive, and satisfying robotic systems capable of maintaining positive relationships with human collaborators, even during challenges like repeated failures.

arxiv情報

著者 Parag Khanna,Andreas Naoum,Elmira Yadollahi,Mårten Björkman,Christian Smith
発行日 2025-02-20 01:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | REFLEX Dataset: A Multimodal Dataset of Human Reactions to Robot Failures and Explanations はコメントを受け付けていません

Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Experiments, and Challenges

要約

より広い使用法と大規模な言語モデル(LLMS)の非常に成功した開発により、LLMを自律運転技術に適用するための関心と需要の成長がありました。
自然言語の理解と推論能力に駆り立てられているLLMは、知覚やシーンの理解から言語の相互作用や意思決定に至るまで、自律運転システムのさまざまな側面を強化する可能性があります。
この論文では、最初に自律運転用のLLMSを設計するという新しい概念(LLM4AD)を紹介します。
次に、シミュレーションにおけるLLM4ADの指導に従う能力を評価するための包括的なベンチマークを提案します。
さらに、LLM4ADシステムのパフォーマンスと可能性を徹底的に評価し、実際の車両プラットフォームで一連の実験を実施します。
最後に、LLM4ADの主な課題を想定しています。これには、遅延、展開、セキュリティとプライバシー、安全性、信頼と透明性、パーソナライズなどがあります。
私たちの研究は、認識やシーンの理解から言語の相互作用や意思決定に至るまで、自律車両技術のさまざまな側面を強化するLLMSの重要な可能性を強調しています。

要約(オリジナル)

With the broader usage and highly successful development of Large Language Models (LLMs), there has been a growth of interest and demand for applying LLMs to autonomous driving technology. Driven by their natural language understanding and reasoning ability, LLMs have the potential to enhance various aspects of autonomous driving systems, from perception and scene understanding to language interaction and decision-making. In this paper, we first introduce the novel concept of designing LLMs for autonomous driving (LLM4AD). Then, we propose a comprehensive benchmark for evaluating the instruction-following abilities of LLM4AD in simulation. Furthermore, we conduct a series of experiments on real-world vehicle platforms, thoroughly evaluating the performance and potential of our LLM4AD systems. Finally, we envision the main challenges of LLM4AD, including latency, deployment, security and privacy, safety, trust and transparency, and personalization. Our research highlights the significant potential of LLMs to enhance various aspects of autonomous vehicle technology, from perception and scene understanding to language interaction and decision-making.

arxiv情報

著者 Can Cui,Yunsheng Ma,Zichong Yang,Yupeng Zhou,Peiran Liu,Juanwu Lu,Lingxi Li,Yaobin Chen,Jitesh H. Panchal,Amr Abdelraouf,Rohit Gupta,Kyungtae Han,Ziran Wang
発行日 2025-02-20 03:39:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO | Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Experiments, and Challenges はコメントを受け付けていません

Real-Time Sampling-based Online Planning for Drone Interception

要約

このペーパーでは、動的環境での高速オンライン計画を研究しています。
この問題には、システムのダイナミクスに準拠する時間最適な軌跡を見つけること、リアルタイム適応のための計算上の制約を満たし、環境の変化からの不確実性を考慮する必要があります。
これらの課題に対処するために、ニューラルネットワークの推論を活用して時間のかかる非線形軌道の最適化を置き換え、不確実性の下で複数の軌跡オプションを迅速に調査できるようにするサンプリングベースのオンライン計画アルゴリズムを提案します。
提案された方法は、ドローン傍受問題に適用されます。ドローン傍受問題では、防御ドローンは衝突を避け、不完全なターゲット予測を処理しながらターゲットを傍受する必要があります。
アルゴリズムは、複数の潜在的なターゲットドローン位置に並行して軌道を効率的に生成します。
次に、トラバーサル時間をターゲットドローンの予測される到着時間と比較し、最終的に最小限の到達可能な軌道を選択することにより、軌道の到達可能性を評価します。
シミュレートされた環境と現実世界の両方の環境で広範な検証を通じて、高額のオンライン計画に対する方法と、構造化されていない設定での予測不可能な動きに対する適応性を実証します。

要約(オリジナル)

This paper studies high-speed online planning in dynamic environments. The problem requires finding time-optimal trajectories that conform to system dynamics, meeting computational constraints for real-time adaptation, and accounting for uncertainty from environmental changes. To address these challenges, we propose a sampling-based online planning algorithm that leverages neural network inference to replace time-consuming nonlinear trajectory optimization, enabling rapid exploration of multiple trajectory options under uncertainty. The proposed method is applied to the drone interception problem, where a defense drone must intercept a target while avoiding collisions and handling imperfect target predictions. The algorithm efficiently generates trajectories toward multiple potential target drone positions in parallel. It then assesses trajectory reachability by comparing traversal times with the target drone’s predicted arrival time, ultimately selecting the minimum-time reachable trajectory. Through extensive validation in both simulated and real-world environments, we demonstrate our method’s capability for high-rate online planning and its adaptability to unpredictable movements in unstructured settings.

arxiv情報

著者 Gilhyun Ryou,Lukas Lao Beyer,Sertac Karaman
発行日 2025-02-20 03:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Real-Time Sampling-based Online Planning for Drone Interception はコメントを受け付けていません

Hier-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting

要約

3D世界で正確なグローバルな3Dセマンティックマッピング、スケーリングアップ機能、明示的なセマンティックラベル予測を可能にする、新しい階層的なカテゴリ表現を特徴とするセマンティック3DガウススプラッティングスラムメソッドであるHier-Slamを提案します。
セマンティックスラムシステムでのパラメーターの使用は、環境の複雑さの高まりにより大幅に増加し、シーンの理解に特に挑戦的で費用がかかります。
この問題に対処するために、コンパクトな形式でセマンティック情報を3Dガウススプラッティングにエンコードする新しい階層表現を導入し、大規模な言語モデル(LLM)の機能を活用します。
さらに、レベル間およびクロスレベルの両方の最適化を通じて、階層的セマンティック情報を最適化するために設計された新しいセマンティック損失を導入します。
さらに、スラムシステム全体を強化し、追跡とマッピングのパフォーマンスが向上します。
Hier-Slamは、2倍の操作スピードアップを達成しながら、マッピングと追跡の両方の精度の両方で既存の密なSLAMメソッドを上回ります。
さらに、小さな合成シーンでのセマンティックセグメンテーションのレンダリングで競争力のあるパフォーマンスを示し、ストレージとトレーニングの要件が大幅に削減されました。
FPSをレンダリングすると、セマンティック情報で2,000に達し、3,000がそれなしで2,000に達します。
最も注目すべきは、500を超えるセマンティッククラスで複雑な現実世界のシーンを処理する機能を紹介し、貴重なスケーリングアップ機能を強調しています。

要約(オリジナル)

We propose Hier-SLAM, a semantic 3D Gaussian Splatting SLAM method featuring a novel hierarchical categorical representation, which enables accurate global 3D semantic mapping, scaling-up capability, and explicit semantic label prediction in the 3D world. The parameter usage in semantic SLAM systems increases significantly with the growing complexity of the environment, making it particularly challenging and costly for scene understanding. To address this problem, we introduce a novel hierarchical representation that encodes semantic information in a compact form into 3D Gaussian Splatting, leveraging the capabilities of large language models (LLMs). We further introduce a novel semantic loss designed to optimize hierarchical semantic information through both inter-level and cross-level optimization. Furthermore, we enhance the whole SLAM system, resulting in improved tracking and mapping performance. Our Hier-SLAM outperforms existing dense SLAM methods in both mapping and tracking accuracy, while achieving a 2x operation speed-up. Additionally, it exhibits competitive performance in rendering semantic segmentation in small synthetic scenes, with significantly reduced storage and training time requirements. Rendering FPS impressively reaches 2,000 with semantic information and 3,000 without it. Most notably, it showcases the capability of handling the complex real-world scene with more than 500 semantic classes, highlighting its valuable scaling-up capability.

arxiv情報

著者 Boying Li,Zhixi Cai,Yuan-Fang Li,Ian Reid,Hamid Rezatofighi
発行日 2025-02-20 04:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Hier-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting はコメントを受け付けていません

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

要約

相互作用を成功させるには、コミュニケーションが不可欠です。
人間とロボットの相互作用では、暗黙のコミュニケーションは、ロボットの人間のニーズ、感情、意図に対する理解を高める可能性を秘めています。
このペーパーでは、人間の意図を明示的にモデル化したり、既存の知識に依存したりすることなく、HRIでの暗黙のコミュニケーションを促進する方法を紹介します。
移転エントロピーを活用すると、コラボレーションまたは競争を含むシナリオで、社会的相互作用におけるエージェント間の影響を調節します。
部分的に観察可能なマルコフ決定プロセス内でエージェントの報酬に影響力を統合することにより、影響力がコラボレーションを強化し、抵抗する影響力がパフォーマンスを低下させることを実証します。
私たちの調査結果は、ソーシャルナビゲーション設定の人間の参加者とのシミュレーションと現実世界の実験を通じて検証されています。

要約(オリジナル)

Communication is essential for successful interaction. In human-robot interaction, implicit communication holds the potential to enhance robots’ understanding of human needs, emotions, and intentions. This paper introduces a method to foster implicit communication in HRI without explicitly modelling human intentions or relying on pre-existing knowledge. Leveraging Transfer Entropy, we modulate influence between agents in social interactions in scenarios involving either collaboration or competition. By integrating influence into agents’ rewards within a partially observable Markov decision process, we demonstrate that boosting influence enhances collaboration, while resisting influence diminishes performance. Our findings are validated through simulations and real-world experiments with human participants in social navigation settings.

arxiv情報

著者 Haoyang Jiang,Elizabeth A. Croft,Michael G. Burke
発行日 2025-02-20 04:05:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction はコメントを受け付けていません