GeneA-SLAM2: Dynamic SLAM with AutoEncoder-Preprocessed Genetic Keypoints Resampling and Depth Variance-Guided Dynamic Region Removal

要約

動的環境における既存のセマンティックSLAMは、主に物体検出またはセマンティックセグメンテーション手法によって動的領域を特定する。しかし、ある種の非常に動的なシナリオでは、検出ボックスやセグメンテーションマスクでは動的領域を完全にカバーできない。そこで本論文では、動的なシーンを扱うために奥行き分散制約を利用した、ロバストで効率的なGeneA-SLAM2システムを提案する。本手法は、深度分散を利用して動的ピクセルを抽出し、動的オブジェクトの除去をガイドする正確な深度マスクを作成する。同時に、オートエンコーダを用いてキーポイントを再構成し、遺伝的リサンプリングキーポイントアルゴリズムを改善することで、より均一に分布したキーポイントを取得し、ポーズ推定の精度を向上させる。我々のシステムは、複数の高度に動的なシーケンスで評価された。その結果、GeneA-SLAM2は現在の手法と比較して、ダイナミックなシーンにおいて高い精度を維持することが実証された。コードはhttps://github.com/qingshufan/GeneA-SLAM2。

要約(オリジナル)

Existing semantic SLAM in dynamic environments mainly identify dynamic regions through object detection or semantic segmentation methods. However, in certain highly dynamic scenarios, the detection boxes or segmentation masks cannot fully cover dynamic regions. Therefore, this paper proposes a robust and efficient GeneA-SLAM2 system that leverages depth variance constraints to handle dynamic scenes. Our method extracts dynamic pixels via depth variance and creates precise depth masks to guide the removal of dynamic objects. Simultaneously, an autoencoder is used to reconstruct keypoints, improving the genetic resampling keypoint algorithm to obtain more uniformly distributed keypoints and enhance the accuracy of pose estimation. Our system was evaluated on multiple highly dynamic sequences. The results demonstrate that GeneA-SLAM2 maintains high accuracy in dynamic scenes compared to current methods. Code is available at: https://github.com/qingshufan/GeneA-SLAM2.

arxiv情報

著者 Shufan Qing,Anzhen Li,Qiandi Wang,Yuefeng Niu,Mingchen Feng,Guoliang Hu,Jinqiao Wu,Fengtao Nan,Yingchun Fan
発行日 2025-06-03 10:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | GeneA-SLAM2: Dynamic SLAM with AutoEncoder-Preprocessed Genetic Keypoints Resampling and Depth Variance-Guided Dynamic Region Removal はコメントを受け付けていません

Solving the Pod Repositioning Problem with Deep Reinforced Adaptive Large Neighborhood Search

要約

ロボット移動型フルフィルメントシステム(RMFS)におけるポッド再配置問題(PRP)は、ピッキングステーションから戻ってきたポッドの最適な保管場所を選択する問題である。本研究では、適応的大規模近傍探索(ALNS)と深層強化学習(DRL)を統合した改善された解法を提示する。DRLエージェントは動的に破壊オペレータと修復オペレータを選択し、探索中に破壊度や受け入れ閾値などの主要パラメータを調整する。ポッドの使用頻度や移動コストなど、PRP特有の特性を反映するために、両オペレータに特化したヒューリスティックを設計している。計算の結果、このDRLガイド付きALNSは、最安値探索、固定値探索、二項整数計画法、静的ヒューリスティックスといった従来のアプローチを凌駕することが示された。本手法は強力な解の質を示し、倉庫システムの組合せ最適化における学習主導型制御の利点を示している。

要約(オリジナル)

The Pod Repositioning Problem (PRP) in Robotic Mobile Fulfillment Systems (RMFS) involves selecting optimal storage locations for pods returning from pick stations. This work presents an improved solution method that integrates Adaptive Large Neighborhood Search (ALNS) with Deep Reinforcement Learning (DRL). A DRL agent dynamically selects destroy and repair operators and adjusts key parameters such as destruction degree and acceptance thresholds during the search. Specialized heuristics for both operators are designed to reflect PRP-specific characteristics, including pod usage frequency and movement costs. Computational results show that this DRL-guided ALNS outperforms traditional approaches such as cheapest-place, fixed-place, binary integer programming, and static heuristics. The method demonstrates strong solution quality and illustrating the benefit of learning-driven control within combinatorial optimization for warehouse systems.

arxiv情報

著者 Lin Xie,Hanyi Li
発行日 2025-06-03 11:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO, math.OC | Solving the Pod Repositioning Problem with Deep Reinforced Adaptive Large Neighborhood Search はコメントを受け付けていません

Continual Learning and Lifting of Koopman Dynamics for Linear Control of Legged Robots

要約

脚式ロボット、特にヒューマノイドロボットや四足歩行ロボットの制御は、その高次元かつ非線形なダイナミクスのために大きな課題を抱えている。線形システムはモデル予測制御(MPC)のような手法を用いて効果的に制御できるが、非線形システムの制御は依然として複雑である。一つの有望な解決策は、非線形ダイナミクスを線形モデルで近似し、実績のある線形制御技術を使用できるようにするクープマン演算子です。しかし、データ駆動型手法によって正確な線形化を達成することは、近似誤差、領域シフト、固定線形状態空間表現の限界などの問題により困難です。これらの課題はクープマンベースのアプローチのスケーラビリティを制限する。本稿では、高次元の脚式ロボットのクープマン・ダイナミクスを反復的に改良するように設計された継続的学習アルゴリズムを提案することにより、これらの課題に対処する。重要なアイデアは、データセットと潜在空間の次元を徐々に拡大することで、学習されたクープマンダイナミクスが真のシステムダイナミクスの正確な近似に収束することを可能にすることである。理論的解析により、本手法の線形近似誤差は単調に収束することが示される。実験結果は、本手法がUnitree G1/H1/A1/Go2やANYmal Dのようなロボットにおいて、単純な線形MPCコントローラを用いて様々な地形で高い制御性能を達成することを示している。本研究は、高次元の脚式ロボットのロコモーション制御に線形化クープマン・ダイナミクスを適用することに初めて成功し、スケーラブルなモデルベース制御ソリューションを可能にした。

要約(オリジナル)

The control of legged robots, particularly humanoid and quadruped robots, presents significant challenges due to their high-dimensional and nonlinear dynamics. While linear systems can be effectively controlled using methods like Model Predictive Control (MPC), the control of nonlinear systems remains complex. One promising solution is the Koopman Operator, which approximates nonlinear dynamics with a linear model, enabling the use of proven linear control techniques. However, achieving accurate linearization through data-driven methods is difficult due to issues like approximation error, domain shifts, and the limitations of fixed linear state-space representations. These challenges restrict the scalability of Koopman-based approaches. This paper addresses these challenges by proposing a continual learning algorithm designed to iteratively refine Koopman dynamics for high-dimensional legged robots. The key idea is to progressively expand the dataset and latent space dimension, enabling the learned Koopman dynamics to converge towards accurate approximations of the true system dynamics. Theoretical analysis shows that the linear approximation error of our method converges monotonically. Experimental results demonstrate that our method achieves high control performance on robots like Unitree G1/H1/A1/Go2 and ANYmal D, across various terrains using simple linear MPC controllers. This work is the first to successfully apply linearized Koopman dynamics for locomotion control of high-dimensional legged robots, enabling a scalable model-based control solution.

arxiv情報

著者 Feihan Li,Abulikemu Abuduweili,Yifan Sun,Rui Chen,Weiye Zhao,Changliu Liu
発行日 2025-06-03 11:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Continual Learning and Lifting of Koopman Dynamics for Linear Control of Legged Robots はコメントを受け付けていません

Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization

要約

深層強化学習(RL)は様々な制御タスクに優れているが、安全性が保証されていないことが実世界での適用を妨げている。特に、学習中の探索は通常安全性違反につながるが、RLエージェントはそれらの間違いから学習する。一方、安全な制御技術は、持続的な安全性の満足を保証するが、システムダイナミクスに関する強力な事前情報を必要とし、これは通常、実際には入手困難である。これらの問題に対処するため、我々は、学習違反がゼロ、すなわち間違いのない学習で状態ごとの安全な最適ポリシーを生成する先駆的アルゴリズムである、安全集合誘導型状態ごと制約付きポリシー最適化(S-3PO)を提案する。S-3POは、まず安全な探索を保証するために、ブラックボックスダイナミクスを持つ安全指向のモニターを採用する。そして、RLエージェントが安全制約内で最適な振る舞いに収束するための「虚数」コストを強制する。S-3POは、高次元ロボットタスクにおいて既存の手法を凌駕し、学習違反ゼロで状態制約を管理する。この技術革新は、実世界での安全なRL配備に向けた大きな前進である。

要約(オリジナル)

Deep reinforcement learning (RL) excels in various control tasks, yet the absence of safety guarantees hampers its real-world applicability. In particular, explorations during learning usually results in safety violations, while the RL agent learns from those mistakes. On the other hand, safe control techniques ensure persistent safety satisfaction but demand strong priors on system dynamics, which is usually hard to obtain in practice. To address these problems, we present Safe Set Guided State-wise Constrained Policy Optimization (S-3PO), a pioneering algorithm generating state-wise safe optimal policies with zero training violations, i.e., learning without mistakes. S-3PO first employs a safety-oriented monitor with black-box dynamics to ensure safe exploration. It then enforces an ‘imaginary’ cost for the RL agent to converge to optimal behaviors within safety constraints. S-3PO outperforms existing methods in high-dimensional robotics tasks, managing state-wise constraints with zero training violation. This innovation marks a significant stride towards real-world safe RL deployment.

arxiv情報

著者 Yifan Sun,Feihan Li,Weiye Zhao,Rui Chen,Tianhao Wei,Changliu Liu
発行日 2025-06-03 11:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization はコメントを受け付けていません

X-Driver: Explainable Autonomous Driving with Vision-Language Models

要約

エンド・ツー・エンドの自律走行は著しく進歩しており、従来のパイプラインよりもシステムがシンプルで、オープンループとクローズドループの両方で強力な走行性能を発揮するなどの利点がある。しかし、既存のフレームワークは、クローズドループ評価での成功率が低いという問題を抱えており、実世界での展開における限界が浮き彫りになっている。本論文では、閉ループ自律走行用に設計された統合マルチモーダル大規模言語モデル(MLLMs)フレームワークであるX-Driverを紹介する。我々は、Bench2Drive[6]を含むCARLAシミュレーション環境の公開ベンチマークを使用して、複数の自律走行タスクにわたってX-Driverを検証する。我々の実験結果は、運転判断の解釈可能性を向上させながら、現在の最先端(SOTA)を上回る優れた閉ループ性能を実証している。これらの結果は、エンドツーエンドの運転における構造化推論の重要性を強調し、X-Driverをクローズドループ自律運転における将来の研究のための強力なベースラインとして確立する。

要約(オリジナル)

End-to-end autonomous driving has advanced significantly, offering benefits such as system simplicity and stronger driving performance in both open-loop and closed-loop settings than conventional pipelines. However, existing frameworks still suffer from low success rates in closed-loop evaluations, highlighting their limitations in real-world deployment. In this paper, we introduce X-Driver, a unified multi-modal large language models(MLLMs) framework designed for closed-loop autonomous driving, leveraging Chain-of-Thought(CoT) and autoregressive modeling to enhance perception and decision-making. We validate X-Driver across multiple autonomous driving tasks using public benchmarks in CARLA simulation environment, including Bench2Drive[6]. Our experimental results demonstrate superior closed-loop performance, surpassing the current state-of-the-art(SOTA) while improving the interpretability of driving decisions. These findings underscore the importance of structured reasoning in end-to-end driving and establish X-Driver as a strong baseline for future research in closed-loop autonomous driving.

arxiv情報

著者 Wei Liu,Jiyuan Zhang,Binxiong Zheng,Yufeng Hu,Yingzhan Lin,Zengfeng Zeng
発行日 2025-06-03 11:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.ET, cs.RO | X-Driver: Explainable Autonomous Driving with Vision-Language Models はコメントを受け付けていません

Accelerating Model-Based Reinforcement Learning using Non-Linear Trajectory Optimization

要約

本論文では、最先端のモデルベース強化学習(MBRL)アルゴリズムであるMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO)を、非線形システムに適した高速軌道最適化手法であるiterative Linear Quadratic Regulator (iLQR)と統合することで、政策最適化の収束の遅さに対処する。提案手法であるExploration-Boosted MC-PILCO(EB-MC-PILCO)は、iLQRを活用して、情報量の多い探索的軌道を生成し、ポリシーを初期化することで、必要な最適化ステップ数を大幅に削減する。カートポールタスクの実験により、EB-MC-PILCOは標準的なMC-PILCOと比較して収束を加速し、両手法が4回の試行でタスクを解くとき、実行時間を最大$bm{45.9%}$短縮することが実証された。また、EB-MC-PILCOは、MC-PILCOがより少ない反復で収束する場合でも、タスクをより速く解きながら、試行間で$bm{100%}$成功率を維持する。

要約(オリジナル)

This paper addresses the slow policy optimization convergence of Monte Carlo Probabilistic Inference for Learning Control (MC-PILCO), a state-of-the-art model-based reinforcement learning (MBRL) algorithm, by integrating it with iterative Linear Quadratic Regulator (iLQR), a fast trajectory optimization method suitable for nonlinear systems. The proposed method, Exploration-Boosted MC-PILCO (EB-MC-PILCO), leverages iLQR to generate informative, exploratory trajectories and initialize the policy, significantly reducing the number of required optimization steps. Experiments on the cart-pole task demonstrate that EB-MC-PILCO accelerates convergence compared to standard MC-PILCO, achieving up to $\bm{45.9\%}$ reduction in execution time when both methods solve the task in four trials. EB-MC-PILCO also maintains a $\bm{100\%}$ success rate across trials while solving the task faster, even in cases where MC-PILCO converges in fewer iterations.

arxiv情報

著者 Marco Calì,Giulio Giacomuzzo,Ruggero Carli,Alberto Dalla Libera
発行日 2025-06-03 11:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | Accelerating Model-Based Reinforcement Learning using Non-Linear Trajectory Optimization はコメントを受け付けていません

Geometric Visual Servo Via Optimal Transport

要約

ロボットシステムの制御則を開発する際、その性能を検討する際の原則的な要素は、基準入力へのスムーズな追従を可能にする入力を選択することです。ロボット操作の文脈では、これは物体またはエンドエフェクタを初期ポーズから目標ポーズに変換することを含みます。ロボット操作の制御法則は、特徴を追跡して制御入力を生成するための誤差発生器として、ビジョンシステムを頻繁に使用します。しかし、現在の制御アルゴリズムは、抽出される確率的特徴を考慮しておらず、代わりに手作業で調整された特徴抽出方法に依存しています。さらに、ターゲットの特徴は静的なポーズで存在することができるため、制御生成のためにポーズと特徴誤差を組み合わせることができる。我々は、ロボットマニピュレータのビジュアルサーボ問題に対する幾何学的制御則を提案する。カメラからの入力は、3次元特殊ユークリッドタスク空間群上の確率測度を構成し、現在のポーズと所望のポーズ間のワッサーシュタイン距離は幾何学的測地線と類似している。このことから、我々は、3次元特殊ユークリッド群上の測地線フローを用いた誤差最小化により、古典的なPD制御と重力補償を組み合わせることで、ポーズと画像ベースのビジュアルサーボの両方を可能にするコントローラを開発する。様々な初期位置に対する本アプローチの一般化能力を示す一連のテストケースに関する結果を示す。

要約(オリジナル)

When developing control laws for robotic systems, the principle factor when examining their performance is choosing inputs that allow smooth tracking to a reference input. In the context of robotic manipulation, this involves translating an object or end-effector from an initial pose to a target pose. Robotic manipulation control laws frequently use vision systems as an error generator to track features and produce control inputs. However, current control algorithms don’t take into account the probabilistic features that are extracted and instead rely on hand-tuned feature extraction methods. Furthermore, the target features can exist in a static pose thus allowing a combined pose and feature error for control generation. We present a geometric control law for the visual servoing problem for robotic manipulators. The input from the camera constitutes a probability measure on the 3-dimensional Special Euclidean task-space group, where the Wasserstein distance between the current and desired poses is analogous with the geometric geodesic. From this, we develop a controller that allows for both pose and image-based visual servoing by combining classical PD control with gravity compensation with error minimization through the use of geodesic flows on a 3-dimensional Special Euclidean group. We present our results on a set of test cases demonstrating the generalisation ability of our approach to a variety of initial positions.

arxiv情報

著者 Ethan Canzini,Simon Pope,Ashutosh Tiwari
発行日 2025-06-03 11:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Geometric Visual Servo Via Optimal Transport はコメントを受け付けていません

Self-supervised Learning of Event-guided Video Frame Interpolation for Rolling Shutter Frames

要約

ほとんどの民生用カメラはローリングシャッター(RS)露光を使用しているため、傾きやゼリー効果などの歪みが生じることが多い。これらのビデオは、帯域幅とフレームレートの制約によってさらに制限される。本論文では、高い時間分解能を提供するイベントカメラの可能性を探る。RSカメラとイベントカメラを組み合わせることで、RS歪みのないグローバルシャッター(GS)高フレームレート映像を復元するフレームワークを提案する。実世界のデータセットが不足しているため、本フレームワークは、変位フィールド(露光中のピクセルの動きの高密度な3次元時空間表現)に基づく自己教師あり戦略を採用する。これにより、RSフレームとGSフレーム間の相互再構成が可能となり、スローモーションの復元が容易になる。RSフレームと変位場を組み合わせてGSフレームを生成し、自己監視のために逆マッピングとRSフレームのワーピングを統合する。4つのデータセットで実験した結果、我々の手法は歪みを除去し、帯域幅の使用量を94%削減し、32倍補間でフレームあたり16ミリ秒を達成した。

要約(オリジナル)

Most consumer cameras use rolling shutter (RS) exposure, which often leads to distortions such as skew and jelly effects. These videos are further limited by bandwidth and frame rate constraints. In this paper, we explore the potential of event cameras, which offer high temporal resolution. We propose a framework to recover global shutter (GS) high-frame-rate videos without RS distortion by combining an RS camera and an event camera. Due to the lack of real-world datasets, our framework adopts a self-supervised strategy based on a displacement field, a dense 3D spatiotemporal representation of pixel motion during exposure. This enables mutual reconstruction between RS and GS frames and facilitates slow-motion recovery. We combine RS frames with the displacement field to generate GS frames, and integrate inverse mapping and RS frame warping for self-supervision. Experiments on four datasets show that our method removes distortion, reduces bandwidth usage by 94 percent, and achieves 16 ms per frame at 32x interpolation.

arxiv情報

著者 Yunfan Lu,Guoqiang Liang,Yiran Shen,Lin Wang
発行日 2025-06-03 11:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Self-supervised Learning of Event-guided Video Frame Interpolation for Rolling Shutter Frames はコメントを受け付けていません

Optimization of Robotic Liquid Handling as a Capacitated Vehicle Routing Problem

要約

我々は、自動化された化学実験室における液体ハンドリング作業の実行時間を短縮するための最適化戦略を提示する。タスクをキャパシテイド・ビークル・ルーティング問題(CVRP)として定式化することにより、ロジスティクスや輸送計画で伝統的に使用されているヒューリスティック・ソルバを活用して、タスクの実行時間を最適化する。個々に制御可能なチップを持つ8チャンネルピペットを用いて例証するように、我々のアプローチは、異なる実験器具形式(ウェルプレート、バイアルホルダーなど)にわたってロバストな最適化性能を実証し、ベースラインのソート手法と比較して、ランダムに生成されたタスクの実行時間を最大37%短縮することを達成した。さらに、この方法を実世界のハイスループット材料探索キャンペーンに適用したところ、最適化時間を3分かけることで、最もパフォーマンスの高いソーティングベースの戦略と比較して、実行時間を61分短縮することができた。この結果は、ハードウェアを変更することなく、自動化されたラボのスループットと効率を大幅に改善できる可能性を強調するものである。この最適化戦略は、薬剤の組み合わせスクリーニング、反応条件の最適化、材料開発、製剤工学などの分野におけるコンビナトリアル実験を加速する、実用的でスケーラブルなソリューションを提供する。

要約(オリジナル)

We present an optimization strategy to reduce the execution time of liquid handling operations in the context of an automated chemical laboratory. By formulating the task as a capacitated vehicle routing problem (CVRP), we leverage heuristic solvers traditionally used in logistics and transportation planning to optimize task execution times. As exemplified using an 8-channel pipette with individually controllable tips, our approach demonstrates robust optimization performance across different labware formats (e.g., well-plates, vial holders), achieving up to a 37% reduction in execution time for randomly generated tasks compared to the baseline sorting method. We further apply the method to a real-world high-throughput materials discovery campaign and observe that 3 minutes of optimization time led to a reduction of 61 minutes in execution time compared to the best-performing sorting-based strategy. Our results highlight the potential for substantial improvements in throughput and efficiency in automated laboratories without any hardware modifications. This optimization strategy offers a practical and scalable solution to accelerate combinatorial experimentation in areas such as drug combination screening, reaction condition optimization, materials development, and formulation engineering.

arxiv情報

著者 Guangqi Wu,Runzhong Wang,Connor W. Coley
発行日 2025-06-03 12:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, math.OC | Optimization of Robotic Liquid Handling as a Capacitated Vehicle Routing Problem はコメントを受け付けていません

Efficient Tactile Perception with Soft Electrical Impedance Tomography and Pre-trained Transformer

要約

触覚センシングはロボットシステムにとって基本的なものであり、様々なタスクにおいて物理的な接触を通じたインタラクションを可能にする。その重要性にもかかわらず、高解像度で大面積の触覚センシングの実現は依然として困難である。エレクトリカル・インピーダンス・トモグラフィ(EIT)は、ロボット工学における複雑な接触問題を解決するのに適した、最小限の電極要件で大面積の分散型触覚センシングを実現する有望なアプローチとして登場しました。しかし、既存のEITに基づく触覚再構成法は、高い計算コストに悩まされたり、膨大な注釈付きシミュレーションデータセットに依存したりすることが多く、実環境での実行可能性を妨げている。この欠点に対処するために、我々は、EITベースの触覚再構成のための事前訓練された変換器(PTET)を提案する。PTETは、シミュレーションデータ上の自己教師付き事前訓練と、限られた実世界データによる微調整を活用することで、シミュレーションと現実のギャップを埋める学習ベースのフレームワークである。シミュレーションにおいてPTETは、同等の最新アプローチ(2,500サンプル対450,000サンプル)と比較して、99.44パーセント少ないアノテーションサンプル数で、同一データ条件下で最大43.57パーセントの再構成性能向上を達成しました。さらに、実データを用いたファインチューニングにより、PTETはシミュレーションと実験のデータセット間の不一致を克服し、実用的なシナリオにおいて優れた再構成と詳細な復元を達成することができます。実世界のタスクにおける再構成精度、データ効率、ロバスト性の向上により、PTETはロボット工学における触覚センシングシステム、特に様々な圧力条件下での物体ハンドリングや適応的把持のためのスケーラブルで実用的なソリューションとして確立されました。

要約(オリジナル)

Tactile sensing is fundamental to robotic systems, enabling interactions through physical contact in multiple tasks. Despite its importance, achieving high-resolution, large-area tactile sensing remains challenging. Electrical Impedance Tomography (EIT) has emerged as a promising approach for large-area, distributed tactile sensing with minimal electrode requirements which can lend itself to addressing complex contact problems in robotics. However, existing EIT-based tactile reconstruction methods often suffer from high computational costs or depend on extensive annotated simulation datasets, hindering its viability in real-world settings. To address this shortcoming, here we propose a Pre-trained Transformer for EIT-based Tactile Reconstruction (PTET), a learning-based framework that bridges the simulation-to-reality gap by leveraging self-supervised pretraining on simulation data and fine-tuning with limited real-world data. In simulations, PTET requires 99.44 percent fewer annotated samples than equivalent state-of-the-art approaches (2,500 vs. 450,000 samples) while achieving reconstruction performance improvements of up to 43.57 percent under identical data conditions. Fine-tuning with real-world data further enables PTET to overcome discrepancies between simulated and experimental datasets, achieving superior reconstruction and detail recovery in practical scenarios. The improved reconstruction accuracy, data efficiency, and robustness in real-world tasks establish it as a scalable and practical solution for tactile sensing systems in robotics, especially for object handling and adaptive grasping under varying pressure conditions.

arxiv情報

著者 Huazhi Dong,Ronald B. Liu,Sihao Teng,Delin Hu,Peisan,E,Francesco Giorgio-Serchi,Yunjie Yang
発行日 2025-06-03 12:53:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Efficient Tactile Perception with Soft Electrical Impedance Tomography and Pre-trained Transformer はコメントを受け付けていません