Experimental Study on The Effect of Multi-step Deep Reinforcement Learning in POMDPs

要約

深層強化学習 (DRL) は、近年、シミュレートされたロボット制御タスクと現実世界のロボット制御タスクの両方で大幅な進歩を遂げました。
これは、完全な状態表現を使用して慎重に設計でき、マルコフ決定プロセス (MDP) として定式化できるタスクの場合に特に当てはまります。
ただし、MDP 用に設計された DRL 戦略を新しいロボット制御タスクに適用することは、困難な場合があります。利用可能な観測値が状態の部分的な表現である可能性があり、部分的に観測可能なマルコフ決定プロセス (POMDP) が発生するためです。
このペーパーでは、MDP 用に考案された 3 つの一般的な DRL アルゴリズム、つまり Proximal Policy Optimization (PPO)、Twin Delayed Deep Deterministic Policy Gradient (TD3)、および Soft Actor-Critic (SAC) を検討し、POMDP シナリオでのパフォーマンスを研究します。
これまでの研究では、SAC と TD3 が通常、MDP として表現できる幅広いタスクにわたって PPO よりも優れたパフォーマンスを発揮することがわかっていますが、我々は 3 つの代表的な POMDP 環境を使用して、常にそうとは限らないことを示しました。
実証研究によると、これはマルチステップ ブートストラップに関連しており、観察とアクションのペアの目標値推定を計算するために、1 ステップの即時報酬ではなく、マルチステップの即時報酬が使用されます。
TD3 (MTD3) および SAC (MSAC) にマルチステップ ブートストラップを組み込むと、POMDP 設定の堅牢性が向上することを観察することで、これを特定します。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has made tremendous advances in both simulated and real-world robot control tasks in recent years. This is particularly the case for tasks that can be carefully engineered with a full state representation, and which can then be formulated as a Markov Decision Process (MDP). However, applying DRL strategies designed for MDPs to novel robot control tasks can be challenging, because the available observations may be a partial representation of the state, resulting in a Partially Observable Markov Decision Process (POMDP). This paper considers three popular DRL algorithms, namely Proximal Policy Optimization (PPO), Twin Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC), invented for MDPs, and studies their performance in POMDP scenarios. While prior work has found that SAC and TD3 typically outperform PPO across a broad range of tasks that can be represented as MDPs, we show that this is not always the case, using three representative POMDP environments. Empirical studies show that this is related to multi-step bootstrapping, where multi-step immediate rewards, instead of one-step immediate reward, are used to calculate the target value estimation of an observation and action pair. We identify this by observing that the inclusion of multi-step bootstrapping in TD3 (MTD3) and SAC (MSAC) results in improved robustness in POMDP settings.

arxiv情報

著者 Lingheng Meng,Rob Gorbet,Michael Burke,Dana Kulić
発行日 2025-01-15 04:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

AutoLoop: Fast Visual SLAM Fine-tuning through Agentic Curriculum Learning

要約

現在のビジュアル SLAM システムは、計算効率と堅牢なループ クロージャ処理のバランスをとるという大きな課題に直面しています。
従来のアプローチでは、慎重な手動調整が必要で、かなりの計算オーバーヘッドが発生しますが、学習ベースの方法では、明示的なループ クロージャー機能が欠如しているか、計算コストのかかる方法で実装されています。
自動化されたカリキュラム学習とビジュアル SLAM システムの効率的な微調整を組み合わせた新しいアプローチである AutoLoop を紹介します。
私たちの手法では、DDPG (Deep Deterministic Policy Gradient) エージェントを採用して、トレーニング中にループ クロージャの重みを動的に調整し、手動によるハイパーパラメータ検索の必要性を排除しながら、必要なトレーニング ステップを大幅に削減します。
このアプローチでは、潜在的なループ クロージャ ペアをオフラインで事前計算し、エージェント主導のカリキュラムを通じてそれらを活用することで、モデルが新しいシナリオに効率的に適応できるようにします。
TartanAir でトレーニング用に実施され、KITTI、EuRoC、ICL-NUIM、TUM RGB-D を含む複数のベンチマークにわたって検証された実験では、AutoLoop が従来のアプローチと比較してトレーニング時間を 1 桁削減しながら、同等またはそれ以上のパフォーマンスを達成することを実証しています。
AutoLoop は、ビジュアル SLAM システムを迅速に適応させるための実用的なソリューションを提供し、従来は手動で複数回繰り返す必要があった重み調整プロセスを自動化します。
私たちの結果は、この自動化されたカリキュラム戦略がトレーニングを加速するだけでなく、さまざまな環境条件下でモデルのパフォーマンスを維持または向上させることを示しています。

要約(オリジナル)

Current visual SLAM systems face significant challenges in balancing computational efficiency with robust loop closure handling. Traditional approaches require careful manual tuning and incur substantial computational overhead, while learning-based methods either lack explicit loop closure capabilities or implement them through computationally expensive methods. We present AutoLoop, a novel approach that combines automated curriculum learning with efficient fine-tuning for visual SLAM systems. Our method employs a DDPG (Deep Deterministic Policy Gradient) agent to dynamically adjust loop closure weights during training, eliminating the need for manual hyperparameter search while significantly reducing the required training steps. The approach pre-computes potential loop closure pairs offline and leverages them through an agent-guided curriculum, allowing the model to adapt efficiently to new scenarios. Experiments conducted on TartanAir for training and validated across multiple benchmarks including KITTI, EuRoC, ICL-NUIM and TUM RGB-D demonstrate that AutoLoop achieves comparable or superior performance while reducing training time by an order of magnitude compared to traditional approaches. AutoLoop provides a practical solution for rapid adaptation of visual SLAM systems, automating the weight tuning process that traditionally requires multiple manual iterations. Our results show that this automated curriculum strategy not only accelerates training but also maintains or improves the model’s performance across diverse environmental conditions.

arxiv情報

著者 Assaf Lahiany,Oren Gal
発行日 2025-01-15 21:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

Embodied Scene Understanding for Vision Language Models via MetaVQA

要約

ビジョン言語モデル (VLM) は、さまざまなモビリティ アプリケーションの具体化された AI エージェントとして大きな可能性を示しています。
しかし、空間推論と逐次意思決定能力を評価するための標準化された閉ループベンチマークが不足しています。
これに対処するために、Visual Question Answering (VQA) と閉ループ シミュレーションを通じて、VLM の空間関係とシーン ダイナミクスの理解を評価および強化するように設計された包括的なベンチマークである MetaVQA を紹介します。
MetaVQA は、nuScenes と Waymo データセットからの Set-of-Mark プロンプトとトップダウン ビューのグラウンド トゥルース アノテーションを活用して、現実世界の多様な交通シナリオに基づいて広範な質問と回答のペアを自動的に生成し、オブジェクト中心でコンテキストに富んだ指示を保証します。
私たちの実験では、MetaVQA データセットを使用して VLM を微調整すると、安全性が重要なシミュレーションにおける空間推論と具体化されたシーンの理解が大幅に向上することが示されており、これは VQA の精度の向上だけでなく、新たな安全性を意識した運転操作でも明らかです。
さらに、学習はシミュレーションから現実世界の観察への強力な移行可能性を示します。
コードとデータは https://metadriverse.github.io/metavqa で公開されます。

要約(オリジナル)

Vision Language Models (VLMs) demonstrate significant potential as embodied AI agents for various mobility applications. However, a standardized, closed-loop benchmark for evaluating their spatial reasoning and sequential decision-making capabilities is lacking. To address this, we present MetaVQA: a comprehensive benchmark designed to assess and enhance VLMs’ understanding of spatial relationships and scene dynamics through Visual Question Answering (VQA) and closed-loop simulations. MetaVQA leverages Set-of-Mark prompting and top-down view ground-truth annotations from nuScenes and Waymo datasets to automatically generate extensive question-answer pairs based on diverse real-world traffic scenarios, ensuring object-centric and context-rich instructions. Our experiments show that fine-tuning VLMs with the MetaVQA dataset significantly improves their spatial reasoning and embodied scene comprehension in safety-critical simulations, evident not only in improved VQA accuracies but also in emerging safety-aware driving maneuvers. In addition, the learning demonstrates strong transferability from simulation to real-world observation. Code and data will be publicly available at https://metadriverse.github.io/metavqa .

arxiv情報

著者 Weizhen Wang,Chenda Duan,Zhenghao Peng,Yuxin Liu,Bolei Zhou
発行日 2025-01-15 21:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Estimation-Aware Trajectory Optimization with Set-Valued Measurement Uncertainties

要約

この論文では、測定 (出力) の不確実性が状態に依存し、設定値に依存するシナリオで推定を意識した軌道を生成するための、最適化ベースのフレームワークを紹介します。
このフレームワークは、設定値出力マップの規則性の概念を利用します。
具体的には、出力正規マップの場合、有限地平線状態の軌道に対して凹型である設定値の可観測性尺度を利用できることを示します。
この尺度を最大化することにより、局所的に線形化されたダイナミクスを含む幅広いクラスのシステムに対して、最適化された推定を意識した軌道を設計できます。
提案されたアプローチの有効性を説明するために、ビジョンベースの推定のための軌道計画のコンテキストで代表的な例を示します。
自我衛星上の機械学習 (ML) ベースの推定モジュールを使用する、非協力的なターゲット追跡問題に対する推定を意識した軌道を提示します。

要約(オリジナル)

In this paper, we present an optimization-based framework for generating estimation-aware trajectories in scenarios where measurement (output) uncertainties are state-dependent and set-valued. The framework leverages the concept of regularity for set-valued output maps. Specifically, we demonstrate that, for output-regular maps, one can utilize a set-valued observability measure that is concave with respect to finite-horizon state trajectories. By maximizing this measure, optimized estimation-aware trajectories can be designed for a broad class of systems, including those with locally linearized dynamics. To illustrate the effectiveness of the proposed approach, we provide a representative example in the context of trajectory planning for vision-based estimation. We present an estimation-aware trajectory for an uncooperative target-tracking problem that uses a machine learning (ML)-based estimation module on an ego-satellite.

arxiv情報

著者 Aditya Deole,Mehran Mesbahi
発行日 2025-01-15 22:50:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | コメントする

Combining Movement Primitives with Contraction Theory

要約

この論文では、動作プリミティブを使用した動作計画のためのモジュール式フレームワークを紹介します。
このアプローチの中心となるのは、非線形力学システム用のモジュール式安定性ツールであるContraction Theoryです。
このアプローチは、個別の動きとリズミカルな動きの両方の並行および順次の組み合わせを達成することにより、従来の方法を拡張し、同時に各動きの独立した変調を可能にします。
このモジュール式フレームワークにより、分割統治戦略が可能になり、複雑なロボット動作計画のプログラミングが簡素化されます。
シミュレーション例はフレームワークの柔軟性と多用途性を示し、ロボットの動作計画におけるさまざまな課題に対処できる可能性を強調しています。

要約(オリジナル)

This paper presents a modular framework for motion planning using movement primitives. Central to the approach is Contraction Theory, a modular stability tool for nonlinear dynamical systems. The approach extends prior methods by achieving parallel and sequential combinations of both discrete and rhythmic movements, while enabling independent modulation of each movement. This modular framework enables a divide-and-conquer strategy to simplify the programming of complex robot motion planning. Simulation examples illustrate the flexibility and versatility of the framework, highlighting its potential to address diverse challenges in robot motion planning.

arxiv情報

著者 Moses C. Nah,Johannes Lachner,Neville Hogan,Jean-Jacques Slotine
発行日 2025-01-15 23:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Unified Few-shot Crack Segmentation and its Precise 3D Automatic Measurement in Concrete Structures

要約

視覚空間システムは、コンクリートのひび割れ検査においてますます不可欠になっています。
しかし、既存の方法は、多くの場合、多様なシナリオへの適応性に欠け、画像ベースのアプローチでは堅牢性が限られており、湾曲した形状や複雑な形状に苦戦します。
これらの制限に対処するために、コンピューター ビジョン テクノロジとマルチモーダル同時位置特定およびマッピング (SLAM) を統合することにより、2 次元 (2D) 亀裂検出、3 次元 (3D) 再構成、および 3D 自動亀裂測定のための革新的なフレームワークが提案されました。
この研究。
まず、ベースの DeepLabv3+ セグメンテーション モデルを基盤として構築し、基礎モデルのセグメント エニシング モデル (SAM) を利用した特定の改良を組み込むことで、不慣れなシナリオ全体にわたって強力な一般化を備えた亀裂セグメンテーション手法を開発し、正確な 2D 亀裂マスクの生成を可能にしました。
3D 再構成の精度と堅牢性を強化するために、Light Detection and Ranging (LiDAR) 点群が画像データおよびセグメンテーション マスクとともに利用されました。
画像と LiDAR-SLAM の両方を活用することで、高密度で色付けされた点群を生成し、3D 現実世界スケールでクラック セマンティクスを効果的にキャプチャするマルチフレームおよびマルチモーダル融合フレームワークを開発しました。
さらに、亀裂の幾何学的属性は 3D 密集点群空間内で自動的かつ直接測定され、従来の 2D 画像ベースの測定の限界を超えました。
この進歩により、この方法は湾曲した複雑な 3D 形状を持つ構造コンポーネントに適したものになります。
さまざまなコンクリート構造物にわたる実験結果は、提案された方法の大幅な改善と独自の利点を強調し、実際のアプリケーションにおけるその有効性、精度、堅牢性を実証しています。

要約(オリジナル)

Visual-Spatial Systems has become increasingly essential in concrete crack inspection. However, existing methods often lacks adaptability to diverse scenarios, exhibits limited robustness in image-based approaches, and struggles with curved or complex geometries. To address these limitations, an innovative framework for two-dimensional (2D) crack detection, three-dimensional (3D) reconstruction, and 3D automatic crack measurement was proposed by integrating computer vision technologies and multi-modal Simultaneous localization and mapping (SLAM) in this study. Firstly, building on a base DeepLabv3+ segmentation model, and incorporating specific refinements utilizing foundation model Segment Anything Model (SAM), we developed a crack segmentation method with strong generalization across unfamiliar scenarios, enabling the generation of precise 2D crack masks. To enhance the accuracy and robustness of 3D reconstruction, Light Detection and Ranging (LiDAR) point clouds were utilized together with image data and segmentation masks. By leveraging both image- and LiDAR-SLAM, we developed a multi-frame and multi-modal fusion framework that produces dense, colorized point clouds, effectively capturing crack semantics at a 3D real-world scale. Furthermore, the crack geometric attributions were measured automatically and directly within 3D dense point cloud space, surpassing the limitations of conventional 2D image-based measurements. This advancement makes the method suitable for structural components with curved and complex 3D geometries. Experimental results across various concrete structures highlight the significant improvements and unique advantages of the proposed method, demonstrating its effectiveness, accuracy, and robustness in real-world applications.

arxiv情報

著者 Pengru Deng,Jiapeng Yao,Chun Li,Su Wang,Xinrun Li,Varun Ojha,Xuhui He,Takashi Matsumoto
発行日 2025-01-15 23:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Gameplay Filters: Robust Zero-Shot Safety through Adversarial Imagination

要約

学習ベースのロボット制御における最近の目覚ましい進歩にもかかわらず、分布外の状況に対する堅牢性を確保することは依然として未解決の課題です。
安全フィルタは、原則として、安全でないアクションをオーバーライドすることで、任意の制御ポリシーが壊滅的な障害を引き起こすのを防ぐことができますが、複雑な(脚式などの)ロボットのダイナミクスに対する既存のソリューションは、完全な動作エンベロープを網羅しておらず、代わりに局所的な低次数モデルに依存しています。
これらのフィルターは敏捷性を過度に制限する傾向があり、公称条件から外れた場合に障害が発生する可能性があります。
この論文では、ゲームプレイ フィルターについて説明します。これは、シミュレーションでトレーニングされた安全戦略と、最悪の場合のイベントと現実との誤差を引き起こすために一緒にトレーニングされた仮想敵との間の仮説的な一致を継続的に実行し、予測安全フィルターの新しいクラスです。
将来的に障害を引き起こす可能性のある行為。
我々は、(36-D) 四足ダイナミクス向けのこの種初の全次安全フィルターを使用したアプローチの拡張性と堅牢性を実証します。
2 つの異なる四足プラットフォームでの物理実験により、引っ張りやモデル化されていない地形などの大きな摂動下でのゲームプレイ フィルターの優れたゼロショット効果が実証されました。
実験ビデオとオープンソース ソフトウェアはオンラインで入手できます: https://saferobotics.org/research/gameplay-filter

要約(オリジナル)

Despite the impressive recent advances in learning-based robot control, ensuring robustness to out-of-distribution conditions remains an open challenge. Safety filters can, in principle, keep arbitrary control policies from incurring catastrophic failures by overriding unsafe actions, but existing solutions for complex (e.g., legged) robot dynamics do not span the full motion envelope and instead rely on local, reduced-order models. These filters tend to overly restrict agility and can still fail when perturbed away from nominal conditions. This paper presents the gameplay filter, a new class of predictive safety filter that continually plays out hypothetical matches between its simulation-trained safety strategy and a virtual adversary co-trained to invoke worst-case events and sim-to-real error, and precludes actions that would cause failures down the line. We demonstrate the scalability and robustness of the approach with a first-of-its-kind full-order safety filter for (36-D) quadrupedal dynamics. Physical experiments on two different quadruped platforms demonstrate the superior zero-shot effectiveness of the gameplay filter under large perturbations such as tugging and unmodeled terrain. Experiment videos and open-source software are available online: https://saferobotics.org/research/gameplay-filter

arxiv情報

著者 Duy P. Nguyen,Kai-Chieh Hsu,Wenhao Yu,Jie Tan,Jaime F. Fisac
発行日 2025-01-16 01:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

Autonomous Algorithm for Training Autonomous Vehicles with Minimal Human Intervention

要約

最近の強化学習 (RL) アルゴリズムは、模擬運転環境で優れた結果を実証しました。
ただし、シミュレーションで訓練された自動運転車は、シミュレートされた環境と現実世界の環境の間の忠実度のギャップにより、現実世界ではうまく機能しないことがよくあります。
RL アルゴリズムを使用して現実世界の自動運転車を直接トレーニングすることは、忠実度ギャップの問題を回避する有望なアプローチですが、いくつかの課題があります。
重要だが見落とされがちな課題の 1 つは、エピソードごとに運転環境をリセットする必要があることです。
このリセット プロセスには大幅な人間の介入が必要となり、現実世界でのトレーニング効率の低下につながります。
この論文では、人的介入を最小限に抑えながら、既製の RL アルゴリズムで自動運転車を訓練できるようにする新しい自律アルゴリズムを紹介します。
私たちのアルゴリズムは、エピソードを中止して危険な状態を防ぎ、後続のエピソードに有益な初期状態を特定することで、不必要な人間の介入を減らします。
有益な初期状態を特定する背後にある重要な考え方は、まだ探索されていないが到達可能な状態から取得できる予想される情報量を推定することです。
また、私たちのアルゴリズムはルールベースの自動運転アルゴリズムを再検討し、自動運転車を初期状態に安全に戻す際の利点を強調しています。
トレーニング中に人間の介入がどの程度必要かを評価するために、自動運転車が自動的に初期状態にリセットされることを必要とする困難な都市部の運転タスクを実行します。
実験結果は、当社の自律アルゴリズムがタスクに依存せず、ベースラインよりもはるかに少ない人間の介入で競争力のある運転パフォーマンスを達成できることを示しています。

要約(オリジナル)

Recent reinforcement learning (RL) algorithms have demonstrated impressive results in simulated driving environments. However, autonomous vehicles trained in simulation often struggle to work well in the real world due to the fidelity gap between simulated and real-world environments. While directly training real-world autonomous vehicles with RL algorithms is a promising approach to bypass the fidelity gap problem, it presents several challenges. One critical yet often overlooked challenge is the need to reset a driving environment between every episode. This reset process demands significant human intervention, leading to poor training efficiency in the real world. In this paper, we introduce a novel autonomous algorithm that enables off-the-shelf RL algorithms to train autonomous vehicles with minimal human intervention. Our algorithm reduces unnecessary human intervention by aborting episodes to prevent unsafe states and identifying informative initial states for subsequent episodes. The key idea behind identifying informative initial states is to estimate the expected amount of information that can be obtained from under-explored but reachable states. Our algorithm also revisits rule-based autonomous driving algorithms and highlights their benefits in safely returning an autonomous vehicle to initial states. To evaluate how much human intervention is required during training, we implement challenging urban driving tasks that require an autonomous vehicle to reset to initial states on its own. The experimental results show that our autonomous algorithm is task-agnostic and achieves competitive driving performance with much less human intervention than baselines.

arxiv情報

著者 Sang-Hyun Lee,Daehyeok Kwon,Seung-Woo Seo
発行日 2025-01-16 02:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites

要約

建設業界は長い間ロボット工学とコンピュータービジョンを研究してきましたが、建設現場でのそれらの導入は依然として非常に限られています。
これらのテクノロジーは、建設管理の精度、効率、安全性を向上させ、従来のワークフローに革命をもたらす可能性があります。
高度なビジョン システムを装備した地上ロボットは、機械、電気、配管 (MEP) システムの監視などのタスクを自動化できます。
本研究では、移動式地上ロボットプラットフォームを使用して MEP コンポーネントを検出するための、微調整された軽量の閉集合物体検出器と比較した、オープン語彙視覚言語モデルの適用可能性を評価します。
地上ロボットに搭載されたカメラで収集されたデータセットは、モデルのパフォーマンスを比較するために手動で注釈が付けられ、分析されました。
この結果は、ビジョン言語モデルの多用途性にも関わらず、特殊な環境やドメイン固有のタスクでは、微調整された軽量モデルが依然としてそれらを大幅に上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

The construction industry has long explored robotics and computer vision, yet their deployment on construction sites remains very limited. These technologies have the potential to revolutionize traditional workflows by enhancing accuracy, efficiency, and safety in construction management. Ground robots equipped with advanced vision systems could automate tasks such as monitoring mechanical, electrical, and plumbing (MEP) systems. The present research evaluates the applicability of open-vocabulary vision-language models compared to fine-tuned, lightweight, closed-set object detectors for detecting MEP components using a mobile ground robotic platform. A dataset collected with cameras mounted on a ground robot was manually annotated and analyzed to compare model performance. The results demonstrate that, despite the versatility of vision-language models, fine-tuned lightweight models still largely outperform them in specialized environments and for domain-specific tasks.

arxiv情報

著者 Abdalwhab Abdalwhab,Ali Imran,Sina Heydarian,Ivanka Iordanova,David St-Onge
発行日 2025-01-16 03:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

ThinTact:Thin Vision-Based Tactile Sensor by Lensless Imaging

要約

視覚ベースの触覚センサーは、ロボット工学コミュニティでの関心が高まっています。
ただし、従来のレンズベースの設計では、これらのセンサーに最小厚さの制約が課せられ、スペースが限られた環境での適用が制限されます。
この論文では、感知領域が 200 mm2 以上、厚さが 10 mm 未満の、新しいレンズレス視覚ベースの触覚センサーである ThinTact を提案します。ThinTact は、マスクベースのレンズレスイメージング技術を利用して、接触情報を CMOS 信号にマッピングします。

リアルタイムの触覚センシングを保証するために、離散コサイン変換 (DCT) に基づく周波数空間領域結合フィルターを利用するリアルタイムのレンズレス再構成アルゴリズムを提案します。
このアルゴリズムは、既存の最適化ベースの方法よりも大幅に高速な計算を実現します。
さらに、センシング品質を向上させるために、汎用アルゴリズムと対応するシステムマトリックスキャリブレーションアルゴリズムに基づいたマスク最適化手法を開発します。定性的および定量的な実験を通じて、提案したレンズレス再構成と触覚センシングのパフォーマンスを評価します。
さらに、テクスチャ認識や接触が多いオブジェクトの操作など、さまざまなアプリケーションにおける ThinTact の実用的な適用性を実証します。
この論文は、IEEE Transactions on Robotics: https://ieeexplore.ieee.org/document/10842357 に掲載されます。
動画: https://youtu.be/YrOO9BDMAHo

要約(オリジナル)

Vision-based tactile sensors have drawn increasing interest in the robotics community. However, traditional lens-based designs impose minimum thickness constraints on these sensors, limiting their applicability in space-restricted settings. In this paper, we propose ThinTact, a novel lensless vision-based tactile sensor with a sensing field of over 200 mm2 and a thickness of less than 10 mm.ThinTact utilizes the mask-based lensless imaging technique to map the contact information to CMOS signals. To ensure real-time tactile sensing, we propose a real-time lensless reconstruction algorithm that leverages a frequency-spatial-domain joint filter based on discrete cosine transform (DCT). This algorithm achieves computation significantly faster than existing optimization-based methods. Additionally, to improve the sensing quality, we develop a mask optimization method based on the generic algorithm and the corresponding system matrix calibration algorithm.We evaluate the performance of our proposed lensless reconstruction and tactile sensing through qualitative and quantitative experiments. Furthermore, we demonstrate ThinTact’s practical applicability in diverse applications, including texture recognition and contact-rich object manipulation. The paper will appear in the IEEE Transactions on Robotics: https://ieeexplore.ieee.org/document/10842357. Video: https://youtu.be/YrOO9BDMAHo

arxiv情報

著者 Jing Xu,Weihang Chen,Hongyu Qian,Dan Wu,Rui Chen
発行日 2025-01-16 03:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする