Autonomous Vision-Guided Resection of Central Airway Obstruction

要約

既存の気管腫瘍切除法は、効果的な気道クリアランスに必要な精度が欠けていることが多く、ロボットの進歩は自律的な切除の新しい可能性を提供します。
気管腫瘍の緩和切除のための視力誘導的で自律的なアプローチを提示します。
このシステムは、5度の多項式で気管表面をモデル化してツールの軌跡を計画しますが、カスタムのより高速なR-CNNセグメンテーションパイプラインは気管と腫瘍の境界を識別します。
電極ツールの角度は、ハンドヘルド外科的デモンストレーションを使用して最適化されており、気管表面から1 mmの安全クリアランスを維持するために軌道が計画されています。
ワークフローは、元生ビボ動物組織モデルに関する5つの連続した実験で正常に検証し、すべての場合に気管穿孔なしで気道閉塞を正常にクリアしました(90%以上の体積腫瘍除去)。
これらの結果は、自律的な切除プラットフォームの実現可能性をサポートし、低侵襲的自律的切除の将来の開発への道を開いています。

要約(オリジナル)

Existing tracheal tumor resection methods often lack the precision required for effective airway clearance, and robotic advancements offer new potential for autonomous resection. We present a vision-guided, autonomous approach for palliative resection of tracheal tumors. This system models the tracheal surface with a fifth-degree polynomial to plan tool trajectories, while a custom Faster R-CNN segmentation pipeline identifies the trachea and tumor boundaries. The electrocautery tool angle is optimized using handheld surgical demonstrations, and trajectories are planned to maintain a 1 mm safety clearance from the tracheal surface. We validated the workflow successfully in five consecutive experiments on ex-vivo animal tissue models, successfully clearing the airway obstruction without trachea perforation in all cases (with more than 90% volumetric tumor removal). These results support the feasibility of an autonomous resection platform, paving the way for future developments in minimally-invasive autonomous resection.

arxiv情報

著者 M. E. Smith,N. Yilmaz,T. Watts,P. M. Scheikl,J. Ge,A. Deguet,A. Kuntz,A. Krieger
発行日 2025-02-25 19:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Autonomous Vision-Guided Resection of Central Airway Obstruction はコメントを受け付けていません

A Distributional Treatment of Real2Sim2Real for Vision-Driven Deformable Linear Object Manipulation

要約

視覚的知覚に基づいて変形可能な線形オブジェクト(DLO)を操作するというREAL2SIM2REAL問題の統合(またはエンドツーエンド)フレームワークを提示します。
パラメーター化されたDLOSセットを使用して、尤度なしの推論(LFI)を使用して、各特定のDLOの動作をほぼシミュレートできる物理パラメーターの後方分布を計算します。
モデルフリーの強化学習を使用して、視覚運動型視覚視力型タスクのトレーニング、シミュレーション、オブジェクト固有の視覚運動ポリシー中にドメインのランダム化にこれらの事後を使用します。
SIMトレーニングを受けたDLO操作ポリシーをゼロショット方法で、つまりそれ以上の微調整なしで展開することにより、このアプローチの有用性を実証します。
これに関連して、動的操作軌道で得られた視覚的および固有受容データのみを使用して、DLOSのパラメトリックセットに対して微分類を実行する顕著なLFIメソッドの能力を評価します。
次に、SIMベースのポリシー学習と現実世界のパフォーマンスにおける結果のドメイン分布の意味を研究します。

要約(オリジナル)

We present an integrated (or end-to-end) framework for the Real2Sim2Real problem of manipulating deformable linear objects (DLOs) based on visual perception. Working with a parameterised set of DLOs, we use likelihood-free inference (LFI) to compute the posterior distributions for the physical parameters using which we can approximately simulate the behaviour of each specific DLO. We use these posteriors for domain randomisation while training, in simulation, object-specific visuomotor policies for a visuomotor DLO reaching task, using model-free reinforcement learning. We demonstrate the utility of this approach by deploying sim-trained DLO manipulation policies in the real world in a zero-shot manner, i.e. without any further fine-tuning. In this context, we evaluate the capacity of a prominent LFI method to perform fine classification over the parametric set of DLOs, using only visual and proprioceptive data obtained in a dynamic manipulation trajectory. We then study the implications of the resulting domain distributions in sim-based policy learning and real-world performance.

arxiv情報

著者 Georgios Kamaras,Subramanian Ramamoorthy
発行日 2025-02-25 20:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | A Distributional Treatment of Real2Sim2Real for Vision-Driven Deformable Linear Object Manipulation はコメントを受け付けていません

Rapidly Built Medical Crash Cart! Lessons Learned and Impacts on High-Stakes Team Collaboration in the Emergency Room

要約

緊急環境でのハイステークスチームワークをサポートするためのロボットの設計は、ペースの速い環境へのシームレスな統合、チームメンバー間の効果的なコミュニケーションの促進、急速に変化する状況への適応など、独自の課題を提示します。
テレオティー付きロボットは、消防隊や宇宙探査などのハイステークスドメインで成功裏に使用されていますが、ハイテイクを支援するチームワークを支援する自律ロボットは未定です。
このギャップに対処するために、迅速なプロトタイピングプロセスを実施して、緊急治療室の臨床チームを支援するように設計された一見一見自律的なロボットを開発しました。
標準的なクラッシュカートを変換しました。これは、医療機器と緊急用品を医療用ロボットクラッシュカート(MCCR)に保管しています。
MCCRは、チームのワークロードと使いやすさへの影響を評価するためにフィールド展開を通じて評価され、障害の分類法を特定し、医療専門家と協力してMCCRを改良しました。
私たちの仕事は、ハイステーク、時間に敏感な設定のためのロボット設計の理解を促進し、有用なMCCR機能と効果的な人間ロボットコラボレーションの考慮事項に関する洞察を提供します。
MCCRチュートリアルを公開することで、HRIの研究者がハイステークスチームワークのためのロボットの設計を探索することを奨励したいと考えています。

要約(オリジナル)

Designing robots to support high-stakes teamwork in emergency settings presents unique challenges, including seamless integration into fast-paced environments, facilitating effective communication among team members, and adapting to rapidly changing situations. While teleoperated robots have been successfully used in high-stakes domains such as firefighting and space exploration, autonomous robots that aid highs-takes teamwork remain underexplored. To address this gap, we conducted a rapid prototyping process to develop a series of seemingly autonomous robot designed to assist clinical teams in the Emergency Room. We transformed a standard crash cart–which stores medical equipment and emergency supplies into a medical robotic crash cart (MCCR). The MCCR was evaluated through field deployments to assess its impact on team workload and usability, identified taxonomies of failure, and refined the MCCR in collaboration with healthcare professionals. Our work advances the understanding of robot design for high-stakes, time-sensitive settings, providing insights into useful MCCR capabilities and considerations for effective human-robot collaboration. By publicly disseminating our MCCR tutorial, we hope to encourage HRI researchers to explore the design of robots for high-stakes teamwork.

arxiv情報

著者 Angelique Taylor,Tauhid Tanjim,Michael Joseph Sack,Maia Hirsch,Kexin Cheng,Kevin Ching,Jonathan St. George,Thijs Roumen,Malte F. Jung,Hee Rin Lee
発行日 2025-02-25 22:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Rapidly Built Medical Crash Cart! Lessons Learned and Impacts on High-Stakes Team Collaboration in the Emergency Room はコメントを受け付けていません

Hybrid Voting-Based Task Assignment in Role-Playing Games

要約

ロールプレイングゲーム(RPG)では、没入のレベルは、特にゲーム内のエージェントがプレイヤーにタスク、ヒント、またはアイデアを伝える場合に重要です。
エージェントがプレイヤーの感情状態と文脈的ニュアンスを正確に解釈するには、基礎レベルの理解が必要であり、これは大規模な言語モデル(LLM)を使用して達成できます。
ただし、複数のコンテキストの変更にわたってLLMの焦点を維持するには、LLMを専用のタスク割り当てモデルと統合してゲームプレイ全体でパフォーマンスを導くなど、より堅牢なアプローチが必要です。
このニーズに応えて、タスクの割り当てと完了における人間の推論に触発されたフレームワークである投票ベースのタスク割り当て(VBTA)を導入します。
VBTAは、エージェントに機能プロファイルを割り当て、タスクの説明をタスクに割り当て、エージェントの能力とタスクの要件とのアライメントを定量化する適切性マトリックスを生成します。
6つの異なる投票方法、事前に訓練されたLLM、およびパス計画のための競合ベースの検索(CBS)の統合を活用して、VBTAは各タスクに最も適切なエージェントを効率的に識別して割り当てます。
既存のアプローチは、単一のクエストや戦闘の出会いなどのゲームプレイの個々の側面を生成することに焦点を当てていますが、私たちの方法は、その一般化可能な性質のために、ユニークな戦闘の出会いと物語の両方を生成する際に有望です。

要約(オリジナル)

In role-playing games (RPGs), the level of immersion is critical-especially when an in-game agent conveys tasks, hints, or ideas to the player. For an agent to accurately interpret the player’s emotional state and contextual nuances, a foundational level of understanding is required, which can be achieved using a Large Language Model (LLM). Maintaining the LLM’s focus across multiple context changes, however, necessitates a more robust approach, such as integrating the LLM with a dedicated task allocation model to guide its performance throughout gameplay. In response to this need, we introduce Voting-Based Task Assignment (VBTA), a framework inspired by human reasoning in task allocation and completion. VBTA assigns capability profiles to agents and task descriptions to tasks, then generates a suitability matrix that quantifies the alignment between an agent’s abilities and a task’s requirements. Leveraging six distinct voting methods, a pre-trained LLM, and integrating conflict-based search (CBS) for path planning, VBTA efficiently identifies and assigns the most suitable agent to each task. While existing approaches focus on generating individual aspects of gameplay, such as single quests, or combat encounters, our method shows promise when generating both unique combat encounters and narratives because of its generalizable nature.

arxiv情報

著者 Daniel Weiner,Raj Korpan
発行日 2025-02-25 22:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Hybrid Voting-Based Task Assignment in Role-Playing Games はコメントを受け付けていません

Interpretable Data-Driven Ship Dynamics Model: Enhancing Physics-Based Motion Prediction with Parameter Optimization

要約

船舶への自律ナビゲーションシステムの展開には、個々の容器に合わせた正確なモーション予測モデルが必要です。
従来の物理学ベースのモデルは、流体力学的原理に基づいていますが、実際の条件下で船舶固有の行動を説明できないことがよくあります。
逆に、純粋にデータ駆動型モデルは特異性を提供しますが、エッジの場合には解釈可能性と堅牢性がありません。
この研究では、物理ベースの方程式をデータ駆動型パラメーターの最適化と統合するデータ駆動型の物理ベースのモデルを提案し、両方のアプローチの強みを活用して解釈可能性と適応性を確保します。
このモデルには、3-DOFダイナミクス、舵、プロペラ力などの物理ベースのコンポーネントが組み込まれていますが、抵抗曲線やラダー係数などのパラメーターは合成データを使用して最適化されています。
ドメインの知識をパラメーター最適化プロセスに埋め込むことにより、適合モデルは物理的な一貫性を維持します。
アプローチの検証は、基礎真実の軌跡に対する予測を定性的および定量的に比較することにより、2つのコンテナ船で実現されます。
この結果は、従来の海洋工学的慣行で調整されたベースライン物理学ベースのモデルよりも、データ駆動型の物理ベースのモデルの予測精度と信頼性における大幅な改善を示しています。
適合モデルは、多様な条件で船舶固有の動作をキャプチャし、予測は51.6%(Ship A)および57.8%(Ship B)がより正確で、72.36%(Ship A)および89.67%(Ship B)がより一貫しています。

要約(オリジナル)

The deployment of autonomous navigation systems on ships necessitates accurate motion prediction models tailored to individual vessels. Traditional physics-based models, while grounded in hydrodynamic principles, often fail to account for ship-specific behaviors under real-world conditions. Conversely, purely data-driven models offer specificity but lack interpretability and robustness in edge cases. This study proposes a data-driven physics-based model that integrates physics-based equations with data-driven parameter optimization, leveraging the strengths of both approaches to ensure interpretability and adaptability. The model incorporates physics-based components such as 3-DoF dynamics, rudder, and propeller forces, while parameters such as resistance curve and rudder coefficients are optimized using synthetic data. By embedding domain knowledge into the parameter optimization process, the fitted model maintains physical consistency. Validation of the approach is realized with two container ships by comparing, both qualitatively and quantitatively, predictions against ground-truth trajectories. The results demonstrate significant improvements, in predictive accuracy and reliability, of the data-driven physics-based models over baseline physics-based models tuned with traditional marine engineering practices. The fitted models capture ship-specific behaviors in diverse conditions with their predictions being, 51.6% (ship A) and 57.8% (ship B) more accurate, 72.36% (ship A) and 89.67% (ship B) more consistent.

arxiv情報

著者 Papandreou Christos,Mathioudakis Michail,Stouraitis Theodoros,Iatropoulos Petros,Nikitakis Antonios,Stavros Paschalakis,Konstantinos Kyriakopoulos
発行日 2025-02-25 23:18:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Interpretable Data-Driven Ship Dynamics Model: Enhancing Physics-Based Motion Prediction with Parameter Optimization はコメントを受け付けていません

QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries

要約

視覚言語モデル(VLM)のトレーニングに使用される大規模なインターネットデータと、ロボットによって収集された生の画像ストリームの間には、ドメインシフトが存在します。
既存の適応戦略には、さまざまな自然言語クエリに対応する必要があるロボットにとっては非現実的なクラスの閉鎖セットの定義が必要です。
これに応じて、QueryAdapterを提示します。
自然言語クエリに応じて事前に訓練されたVLMを迅速に適応させるための新しいフレームワーク。
QueryAdapterは、以前の展開中に収集された非標識データをレバレッジして、VLM機能をクエリに関連するセマンティッククラスに合わせます。
学習可能なプロンプトトークンを最適化し、トレーニング用のオブジェクトを積極的に選択することにより、数分で適応したモデルを作成できます。
また、適応のために実際のデータを使用する場合、クエリとは無関係のオブジェクトをどのように処理するかを探ります。
次に、オブジェクトキャプションをネガティブクラスラベルとして使用することを提案し、適応中により適切な校正された信頼性スコアを作成するのに役立ちます。
Scannet ++での広範な実験は、QueryAdapterが最先端の非監視されていないVLMアダプターおよび3Dシーングラフメソッドと比較して、オブジェクトの検索パフォーマンスを大幅に向上させることを示しています。
さらに、このアプローチは、抽象的なアフォーダンスクエリやEGO4Dなどのその他のデータセットに堅牢な一般化を示します。

要約(オリジナル)

A domain shift exists between the large-scale, internet data used to train a Vision-Language Model (VLM) and the raw image streams collected by a robot. Existing adaptation strategies require the definition of a closed-set of classes, which is impractical for a robot that must respond to diverse natural language queries. In response, we present QueryAdapter; a novel framework for rapidly adapting a pre-trained VLM in response to a natural language query. QueryAdapter leverages unlabelled data collected during previous deployments to align VLM features with semantic classes related to the query. By optimising learnable prompt tokens and actively selecting objects for training, an adapted model can be produced in a matter of minutes. We also explore how objects unrelated to the query should be dealt with when using real-world data for adaptation. In turn, we propose the use of object captions as negative class labels, helping to produce better calibrated confidence scores during adaptation. Extensive experiments on ScanNet++ demonstrate that QueryAdapter significantly enhances object retrieval performance compared to state-of-the-art unsupervised VLM adapters and 3D scene graph methods. Furthermore, the approach exhibits robust generalization to abstract affordance queries and other datasets, such as Ego4D.

arxiv情報

著者 Nicolas Harvey Chapman,Feras Dayoub,Will Browne,Christopher Lehnert
発行日 2025-02-26 01:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries はコメントを受け付けていません

MaskPlanner: Learning-Based Object-Centric Motion Generation from 3D Point Clouds

要約

オブジェクト中心のモーション生成(OCMG)は、ロボットスプレー塗装や溶接など、さまざまな産業用途$ \ Unicode {x2014} $で重要な役割を果たします。
ただし、既存のソリューションは、特別なヒューリスティック、高価な最適化ルーチン、または現実世界のシナリオへの適応性を制限する制限的なジオメトリの仮定に依存しています。
この作業では、3DポイントクラウドからOCMGに直接取り組む新しい完全なデータ駆動型のフレームワークを紹介し、自由形式の表面全体にエキスパートパスパターンを一般化することを学びます。
特定のオブジェクトのローカルパスセグメントを予測する深い学習方法であるMaskPlannerを提案し、同時に「パスマスク」を推測して、これらのセグメントを異なるパスにグループ化します。
この設計により、ネットワークは、単一のフォワードパスでローカルの幾何学的パターンとグローバルタスク要件の両方をキャプチャするように誘導します。
現実的なロボットスプレーペインティングシナリオの広範な実験は、目に見えないオブジェクトの近いカバレッジ(99%を超える)を達成することを示していますが、タスクに依存しないままであり、塗料の堆積を明示的に最適化していません。
さらに、6-DOF専門塗装ロボットに関する現実世界の検証は、生成された軌道が直接実行可能であり、専門家レベルの塗装品質を生み出していることを示しています。
私たちの調査結果は、OCMGがエンジニアリングを縮小し、いくつかの産業用ユースケースにシームレスに適応するための提案された学習方法の可能性を決定的に強調しています。

要約(オリジナル)

Object-Centric Motion Generation (OCMG) plays a key role in a variety of industrial applications$\unicode{x2014}$such as robotic spray painting and welding$\unicode{x2014}$requiring efficient, scalable, and generalizable algorithms to plan multiple long-horizon trajectories over free-form 3D objects. However, existing solutions rely on specialized heuristics, expensive optimization routines, or restrictive geometry assumptions that limit their adaptability to real-world scenarios. In this work, we introduce a novel, fully data-driven framework that tackles OCMG directly from 3D point clouds, learning to generalize expert path patterns across free-form surfaces. We propose MaskPlanner, a deep learning method that predicts local path segments for a given object while simultaneously inferring ‘path masks’ to group these segments into distinct paths. This design induces the network to capture both local geometric patterns and global task requirements in a single forward pass. Extensive experimentation on a realistic robotic spray painting scenario shows that our approach attains near-complete coverage (above 99%) for unseen objects, while it remains task-agnostic and does not explicitly optimize for paint deposition. Moreover, our real-world validation on a 6-DoF specialized painting robot demonstrates that the generated trajectories are directly executable and yield expert-level painting quality. Our findings crucially highlight the potential of the proposed learning method for OCMG to reduce engineering overhead and seamlessly adapt to several industrial use cases.

arxiv情報

著者 Gabriele Tiboni,Raffaello Camoriano,Tatiana Tommasi
発行日 2025-02-26 01:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MaskPlanner: Learning-Based Object-Centric Motion Generation from 3D Point Clouds はコメントを受け付けていません

Simulating Safe Bite Transfer in Robot-Assisted Feeding with a Soft Head and Articulated Jaw

要約

ロボット支援の給餌中に安全で快適な咬傷転送を確保することは、必要な物理的な人間とロボットの相互作用のために困難です。
このペーパーでは、ソフトボディダイナミクスを使用して、物理ベースのシミュレーター(Mujoco)で物理的なヒトロボット相互作用をモデル化するための新しいアプローチを紹介します。
柔軟なヘッドモデルを剛性のスケルトンと統合しながら、内部ダイナミクスを説明し、柔軟なモデルをスケルトンによって作動させることができます。
シミュレーションにリアルなソフトスキンコンタクトダイナミクスを組み込むことで、挿入深度やエントリ角度など、咬合伝達パラメーター、およびユーザーの安全性と快適性への影響を体系的に評価できます。
私たちの調査結果は、ストレートインストレートアウト戦略が、静的なヘッドを想定して、ロボット支援給餌の力を最小限に抑え、ユーザーの快適性を高めることを示唆しています。
このシミュレーションベースのアプローチは、現実世界の実験のより安全でより制御された代替手段を提供します。
補足ビデオは、https://tinyurl.com/224yh2kxにあります。

要約(オリジナル)

Ensuring safe and comfortable bite transfer during robot-assisted feeding is challenging due to the close physical human-robot interaction required. This paper presents a novel approach to modeling physical human-robot interaction in a physics-based simulator (MuJoCo) using soft-body dynamics. We integrate a flexible head model with a rigid skeleton while accounting for internal dynamics, enabling the flexible model to be actuated by the skeleton. Incorporating realistic soft-skin contact dynamics in simulation allows for systematically evaluating bite transfer parameters, such as insertion depth and entry angle, and their impact on user safety and comfort. Our findings suggest that a straight-in-straight-out strategy minimizes forces and enhances user comfort in robot-assisted feeding, assuming a static head. This simulation-based approach offers a safer and more controlled alternative to real-world experimentation. Supplementary videos can be found at: https://tinyurl.com/224yh2kx.

arxiv情報

著者 Yi Heng San,Vasanthamaran Ravichandram,J-Anne Yow,Sherwin Stephen Chan,Yifan Wang,Wei Tech Ang
発行日 2025-02-26 01:52:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Simulating Safe Bite Transfer in Robot-Assisted Feeding with a Soft Head and Articulated Jaw はコメントを受け付けていません

TransForce: Transferable Force Prediction for Vision-based Tactile Sensors with Sequential Image Translation

要約

ビジョンベースの触覚センサー(VBTS)は、ロボットの操作に不可欠な高解像度の触覚画像を提供します。
ただし、VBTSSの力センシングは、ペアの触覚画像と力ラベルを獲得するための費用がかかり、時間に及ぶプロセスのために活用されていません。
この研究では、特にせん断方向における予測力の精度を改善しながら、さまざまな照明色とマーカーパターンの下で、収集された画像筋対ペアのデータを収集した新しいセンサーの収集可能な画像ペア付きデータを活用するように設計された転送可能な力予測モデルであるTransforceを導入します。
私たちのモデルは、ソースドメインからターゲットドメインへの触覚画像の翻訳を効果的に実現し、生成された触覚画像が新しいセンサーの照明の色とマーカーパターンを反映しながら、既存のセンサーで観察されるエラストマーの変形を正確に整列させることを保証します。
このように、生成された連続した触覚画像と既存の力ラベルで訓練された再発力予測モデルを使用して、0.69Nの最低平均誤差(5.8 \%)の新しいセンサーの高精度力を推定して、$ x $ axis、0.70n(5.8 \%)で$ x $ axis(5.8 \%)で、$ -axisを含む1.11n(6.9%)を含む(5.8 \%)。
画像。
実験結果はまた、純粋なマーカーモダリティがせん断方向の力の精度を改善するRGBモダリティよりも役立つことを明らかにし、RGBモダリティは通常の方向でより良いパフォーマンスを示しています。

要約(オリジナル)

Vision-based tactile sensors (VBTSs) provide high-resolution tactile images crucial for robot in-hand manipulation. However, force sensing in VBTSs is underutilized due to the costly and time-intensive process of acquiring paired tactile images and force labels. In this study, we introduce a transferable force prediction model, TransForce, designed to leverage collected image-force paired data for new sensors under varying illumination colors and marker patterns while improving the accuracy of predicted forces, especially in the shear direction. Our model effectively achieves translation of tactile images from the source domain to the target domain, ensuring that the generated tactile images reflect the illumination colors and marker patterns of the new sensors while accurately aligning the elastomer deformation observed in existing sensors, which is beneficial to force prediction of new sensors. As such, a recurrent force prediction model trained with generated sequential tactile images and existing force labels is employed to estimate higher-accuracy forces for new sensors with lowest average errors of 0.69N (5.8\% in full work range) in $x$-axis, 0.70N (5.8\%) in $y$-axis, and 1.11N (6.9\%) in $z$-axis compared with models trained with single images. The experimental results also reveal that pure marker modality is more helpful than the RGB modality in improving the accuracy of force in the shear direction, while the RGB modality show better performance in the normal direction.

arxiv情報

著者 Zhuo Chen,Ni Ou,Xuyang Zhang,Shan Luo
発行日 2025-02-26 02:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TransForce: Transferable Force Prediction for Vision-based Tactile Sensors with Sequential Image Translation はコメントを受け付けていません

Learning Autonomy: Off-Road Navigation Enhanced by Human Input

要約

自律運転のエリアでは、オフロード地形のナビゲートは、草や土などの予測不可能な表面から茂みや水たまりなどの予期しない障害まで、一連の課題を提示します。
この作業では、単眼カメラのみを使用して、実際のデモンストレーションから人間の運転ニュアンスを直接捉えることにより、これらの課題に対処する新しい学習ベースのローカルプランナーを紹介します。
プランナーの主な特徴は、さまざまな地形タイプとその高速学習能力を備えた挑戦的なオフロード環境でナビゲートできることです。
最小限の人間のデモデータ(5〜10分)を利用することにより、幅広いオフロード条件でナビゲートすることをすぐに学びます。
ローカルプランナーは、人間の運転の好みを学ぶために必要な現実世界のデータを大幅に削減します。
これにより、プランナーは、手動で微調整する必要なく、学習行動を実際のシナリオに適用し、オフロードの自律運転技術の迅速な調整と適応性を実証することができます。

要約(オリジナル)

In the area of autonomous driving, navigating off-road terrains presents a unique set of challenges, from unpredictable surfaces like grass and dirt to unexpected obstacles such as bushes and puddles. In this work, we present a novel learning-based local planner that addresses these challenges by directly capturing human driving nuances from real-world demonstrations using only a monocular camera. The key features of our planner are its ability to navigate in challenging off-road environments with various terrain types and its fast learning capabilities. By utilizing minimal human demonstration data (5-10 mins), it quickly learns to navigate in a wide array of off-road conditions. The local planner significantly reduces the real world data required to learn human driving preferences. This allows the planner to apply learned behaviors to real-world scenarios without the need for manual fine-tuning, demonstrating quick adjustment and adaptability in off-road autonomous driving technology.

arxiv情報

著者 Akhil Nagariya,Dimitar Filev,Srikanth Saripalli,Gaurav Pandey
発行日 2025-02-26 02:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning Autonomy: Off-Road Navigation Enhanced by Human Input はコメントを受け付けていません