ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

要約

Vision-Language-active(VLA)モデルは、前処理された視覚的および言語表現を活用することにより、汎用ロボット操作を進めています。
しかし、彼らは、特に視覚的閉塞または動的な不確実性の下で、力を含む細かい制御を必要とする接触豊富なタスクと格闘しています。
これらの制限に対処するために、\ textBf {forcevla}を提案します。これは、外力センシングをVLAシステム内のファーストクラスモダリティとして扱う新しいエンドツーエンド操作フレームワークです。
Forcevlaは、アクションデコード中にリアルタイムの6軸力フィードバックを前駆した視覚言語埋め込みと動的に統合する、力を認識しているエクスペル融合モジュールである\ textBf {fvlmoe}を導入します。
これにより、モダリティ固有の専門家間のコンテキスト対応ルーティングが可能になり、微妙な接触ダイナミクスに適応するロボットの能力が向上します。
また、5つの接触豊富な操作タスクにわたって同期されたビジョン、固有受容、およびフォーストルク信号を含む新しいデータセットである\ textbf {forcevla-data}も紹介します。
ForceVLAは、平均タスクの成功を強力な$ \ PI_0 $ベースのベースラインよりも23.2 \%改善し、プラグ挿入などのタスクで最大80 \%の成功を達成します。
私たちのアプローチは、器用な操作のためのマルチモーダル統合の重要性を強調し、物理的にインテリジェントなロボット制御のための新しいベンチマークを設定します。
コードとデータはhttps://sites.google.com/view/forcevla2025でリリースされます。

要約(オリジナル)

Vision-Language-Action (VLA) models have advanced general-purpose robotic manipulation by leveraging pretrained visual and linguistic representations. However, they struggle with contact-rich tasks that require fine-grained control involving force, especially under visual occlusion or dynamic uncertainty. To address these limitations, we propose \textbf{ForceVLA}, a novel end-to-end manipulation framework that treats external force sensing as a first-class modality within VLA systems. ForceVLA introduces \textbf{FVLMoE}, a force-aware Mixture-of-Experts fusion module that dynamically integrates pretrained visual-language embeddings with real-time 6-axis force feedback during action decoding. This enables context-aware routing across modality-specific experts, enhancing the robot’s ability to adapt to subtle contact dynamics. We also introduce \textbf{ForceVLA-Data}, a new dataset comprising synchronized vision, proprioception, and force-torque signals across five contact-rich manipulation tasks. ForceVLA improves average task success by 23.2\% over strong $\pi_0$-based baselines, achieving up to 80\% success in tasks such as plug insertion. Our approach highlights the importance of multimodal integration for dexterous manipulation and sets a new benchmark for physically intelligent robotic control. Code and data will be released at https://sites.google.com/view/forcevla2025.

arxiv情報

著者 Jiawen Yu,Hairuo Liu,Qiaojun Yu,Jieji Ren,Ce Hao,Haitong Ding,Guangyu Huang,Guofan Huang,Yan Song,Panpan Cai,Cewu Lu,Wenqiang Zhang
発行日 2025-05-28 09:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation はコメントを受け付けていません

NanoSLAM: Enabling Fully Onboard SLAM for Tiny Robots

要約

周囲の知覚とマッピングは、ロボットプラットフォームで自律的なナビゲーションを有効にするために不可欠です。
ほとんどのロボットシステムに存在する臭気エラーを修正しながら正確なマッピングを可能にするアルゴリズムクラスは、同時ローカリゼーションとマッピング(SLAM)です。
今日、完全にオンボードマッピングは、主にスラムアルゴリズムの実行に必要な大幅な計算負荷とメモリの要求が原因で、ハイワット数プロセッサをホストできるロボットプラットフォームでのみ達成可能です。
このため、ポケットサイズのハードウェアに制約のあるロボットは、スラムの実行を外部インフラストラクチャにオフロードします。
リソースに制約のあるプロセッサでスラムアルゴリズムを有効にするという課題に対処するために、このホワイトペーパーでは、わずか87.9 MWの電力予算でセンチメートルサイズのロボットで動作するように特別に設計された、軽量で最適化されたエンドツーエンドのスラムアプローチであるナノスラムを提案します。
実際のシナリオでマッピング機能を実証し、44 gのナノドローンでナノスラムを展開し、GAP9と呼ばれる新しい商用RISC-V低電力並列プロセッサを装備しました。
このアルゴリズムは、RISC-V処理コアの並列機能を活用し、4.5 cmの精度と250ミリ秒未満のエンドツーエンドの実行時間で一般的な環境のマッピングを可能にするように設計されています。

要約(オリジナル)

Perceiving and mapping the surroundings are essential for enabling autonomous navigation in any robotic platform. The algorithm class that enables accurate mapping while correcting the odometry errors present in most robotics systems is Simultaneous Localization and Mapping (SLAM). Today, fully onboard mapping is only achievable on robotic platforms that can host high-wattage processors, mainly due to the significant computational load and memory demands required for executing SLAM algorithms. For this reason, pocket-size hardware-constrained robots offload the execution of SLAM to external infrastructures. To address the challenge of enabling SLAM algorithms on resource-constrained processors, this paper proposes NanoSLAM, a lightweight and optimized end-to-end SLAM approach specifically designed to operate on centimeter-size robots at a power budget of only 87.9 mW. We demonstrate the mapping capabilities in real-world scenarios and deploy NanoSLAM on a nano-drone weighing 44 g and equipped with a novel commercial RISC-V low-power parallel processor called GAP9. The algorithm is designed to leverage the parallel capabilities of the RISC-V processing cores and enables mapping of a general environment with an accuracy of 4.5 cm and an end-to-end execution time of less than 250 ms.

arxiv情報

著者 Vlad Niculescu,Tommaso Polonelli,Michele Magno,Luca Benini
発行日 2025-05-28 09:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | NanoSLAM: Enabling Fully Onboard SLAM for Tiny Robots はコメントを受け付けていません

A Physics-Informed Machine Learning Framework for Safe and Optimal Control of Autonomous Systems

要約

自律システムが日常生活でより遍在するようになるにつれて、安全性を保証する高性能を確保することが重要です。
ただし、安全性とパフォーマンスは競合する目標である可能性があり、これにより、共同最適化が困難になります。
制約された強化学習(CRL)などの学習ベースの方法は、強力なパフォーマンスを達成しますが、安全性の制約として安全性が強制され、安全性が批判的な設定での使用を制限するため、正式な安全性の保証がありません。
逆に、Hamilton-Jacobi(HJ)Reachability Analysis and Control Barrier Functions(CBFS)などの正式な方法は、厳格な安全保証を提供しますが、しばしばパフォーマンスを無視して、過度に保守的なコントローラーをもたらします。
このギャップを埋めるために、州が制約した最適な制御問題としての安全性とパフォーマンスの共同最適化を定式化します。そこでは、コスト関数と安全要件を介してパフォーマンス目標がエンコードされ、状態の制約として課されます。
結果の値関数がハミルトン・ジャコビ・ベルマン(HJB)方程式を満たしていることを実証し、これを新しい物理学に基づいた機械学習フレームワークを使用して効率的に近似します。
さらに、学習エラーを定量化するためのコンフォーマル予測ベースの検証戦略を導入し、パフォーマンスの劣化に縛られた確率的エラーとともに、高い自信の安全価値関数を回復します。
いくつかのケーススタディを通じて、複雑で高次元の自律システムの安全でパフォーマンスのあるコントローラーのスケーラブルな学習を可能にする上で、提案されたフレームワークの有効性を実証します。

要約(オリジナル)

As autonomous systems become more ubiquitous in daily life, ensuring high performance with guaranteed safety is crucial. However, safety and performance could be competing objectives, which makes their co-optimization difficult. Learning-based methods, such as Constrained Reinforcement Learning (CRL), achieve strong performance but lack formal safety guarantees due to safety being enforced as soft constraints, limiting their use in safety-critical settings. Conversely, formal methods such as Hamilton-Jacobi (HJ) Reachability Analysis and Control Barrier Functions (CBFs) provide rigorous safety assurances but often neglect performance, resulting in overly conservative controllers. To bridge this gap, we formulate the co-optimization of safety and performance as a state-constrained optimal control problem, where performance objectives are encoded via a cost function and safety requirements are imposed as state constraints. We demonstrate that the resultant value function satisfies a Hamilton-Jacobi-Bellman (HJB) equation, which we approximate efficiently using a novel physics-informed machine learning framework. In addition, we introduce a conformal prediction-based verification strategy to quantify the learning errors, recovering a high-confidence safety value function, along with a probabilistic error bound on performance degradation. Through several case studies, we demonstrate the efficacy of the proposed framework in enabling scalable learning of safe and performant controllers for complex, high-dimensional autonomous systems.

arxiv情報

著者 Manan Tayal,Aditya Singh,Shishir Kolathaya,Somil Bansal
発行日 2025-05-28 10:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | A Physics-Informed Machine Learning Framework for Safe and Optimal Control of Autonomous Systems はコメントを受け付けていません

LiDAR Based Semantic Perception for Forklifts in Outdoor Environments

要約

この研究では、複雑な屋外環境で動作する自律的なフォークリフトに合わせた、LIDARベースの新しいセマンティックセグメンテーションフレームワークを紹介します。
私たちのアプローチの中心は、デュアルLIDARシステムの統合です。これは、前向きと下向きのLIDARセンサーを組み合わせて、包括的なシーンの理解を可能にします。
デュアル構成により、高空間精度で動的および静的障害物の検出とセグメンテーションが改善されます。
2つのセンサーからキャプチャされた高解像度の3Dポイントクラウドを使用して、私たちの方法は、ポイントクラウドを歩行者、車両、フォークリフトなどの安全性クリティカルなインスタンスクラスにセグメント化する軽量でありながら堅牢なアプローチ、および運転可能な地面、レーン、建物などの環境クラスを採用しています。
実験的検証は、私たちのアプローチが厳格なランタイム要件を満たしながら高いセグメンテーションの精度を達成し、ダイナミックウェアハウスおよびヤード環境での安全性のある完全に自律的なフォークリフトナビゲーションの実行可能性を確立することを示しています。

要約(オリジナル)

In this study, we present a novel LiDAR-based semantic segmentation framework tailored for autonomous forklifts operating in complex outdoor environments. Central to our approach is the integration of a dual LiDAR system, which combines forward-facing and downward-angled LiDAR sensors to enable comprehensive scene understanding, specifically tailored for industrial material handling tasks. The dual configuration improves the detection and segmentation of dynamic and static obstacles with high spatial precision. Using high-resolution 3D point clouds captured from two sensors, our method employs a lightweight yet robust approach that segments the point clouds into safety-critical instance classes such as pedestrians, vehicles, and forklifts, as well as environmental classes such as driveable ground, lanes, and buildings. Experimental validation demonstrates that our approach achieves high segmentation accuracy while satisfying strict runtime requirements, establishing its viability for safety-aware, fully autonomous forklift navigation in dynamic warehouse and yard environments.

arxiv情報

著者 Benjamin Serfling,Hannes Reichert,Lorenzo Bayerlein,Konrad Doll,Kati Radkhah-Lens
発行日 2025-05-28 11:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | LiDAR Based Semantic Perception for Forklifts in Outdoor Environments はコメントを受け付けていません

Sample Efficient Robot Learning in Supervised Effect Prediction Tasks

要約

自己教師のロボット学習では、エージェントは環境との積極的な相互作用、エネルギー使用、人間の監視、実験時間などのコストの発生を通じてデータを取得します。
これらを緩和するには、サンプル効率の高い探索が不可欠です。
学習進行状況(LP)などの本質的な動機付け(IM)はロボット工学で広く使用されており、機械学習の分類のためにアクティブ学習(AL)は十分に確立されていますが、世界モデル学習に典型的な連続的で高次元回帰タスクに対処するフレームワークはほとんどありません。
Musel(サンプル効率の高い学習のモデルの不確実性)を提案します。これは、アクション効果予測など、ロボット工学の回帰タスクに合わせた新しいALフレームワークです。
Muselは、完全な予測不確実性、学習進捗、および入力の多様性を組み合わせてデータ収集を導くモデルの不確実性メトリックを導入します。
2つのロボット卓上タスクで確率的変異ディープカーネル学習(SVDKL)モデルを使用してアプローチを検証します。
実験結果は、Muselが学習精度とサンプル効率の両方を改善し、アクション効果の学習効果と有益なサンプルの選択におけるその有効性を検証することを示しています。

要約(オリジナル)

In self-supervised robotic learning, agents acquire data through active interaction with their environment, incurring costs such as energy use, human oversight, and experimental time. To mitigate these, sample-efficient exploration is essential. While intrinsic motivation (IM) methods like learning progress (LP) are widely used in robotics, and active learning (AL) is well established for classification in machine learning, few frameworks address continuous, high-dimensional regression tasks typical of world model learning. We propose MUSEL (Model Uncertainty for Sample-Efficient Learning), a novel AL framework tailored for regression tasks in robotics, such as action-effect prediction. MUSEL introduces a model uncertainty metric that combines total predictive uncertainty, learning progress, and input diversity to guide data acquisition. We validate our approach using a Stochastic Variational Deep Kernel Learning (SVDKL) model in two robotic tabletop tasks. Experimental results demonstrate that MUSEL improves both learning accuracy and sample efficiency, validating its effectiveness in learning action effects and selecting informative samples.

arxiv情報

著者 Mehmet Arda Eren,Erhan Oztop
発行日 2025-05-28 12:23:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Sample Efficient Robot Learning in Supervised Effect Prediction Tasks はコメントを受け付けていません

Digital-physical testbed for ship autonomy studies in the Marine Cybernetics Laboratory basin

要約

海上自律型の表面船(質量)のために開発されたアルゴリズムは、運用コストと安全性の高い考慮事項により、実際の船舶でテストするのが難しいことがよくあります。
シミュレーションは費用対効果の高い代替品を提供し、リスクを排除しますが、特定のタスクの実際のダイナミクスを正確に表すことはできません。
実験室盆地と併せて小規模モデル船とロボット容器を利用することで、検証プロセスの初期段階にアクセス可能なテスト環境を提供します。
ただし、単一のテスト用のモデル容器の設計と開発は、費用がかかり、面倒な場合があり、研究者はしばしばそのようなインフラストラクチャへのアクセスを欠いています。
これらの課題に対処し、合理化されたテストを可能にするために、デジタル物理実験室での質量アルゴリズムの開発、テスト、検証、および検証を促進する社内テストベッドを開発しました。
このインフラストラクチャには、小規模モデル容器のセット、各容器のシミュレーション環境、包括的なテストベッド環境、およびユニティのデジタルツインが含まれます。
これにより、各モデル容器の高忠実度シミュレーションモデルから始まる完全な設計および検証パイプラインを実験室盆地でのモデルスケールテストに確立することを目指しており、R/V Milliampere1を使用した半フルスケール検証とR/V Gunnerusによる全面的な検証に移行する可能性を可能にします。
この作業では、このテストベッド環境とそのコンポーネントの開発に関する進展を示し、自律性を含む船のガイダンス、ナビゲーション、および制御(GNC)を可能にする際のその有効性を示しています。

要約(オリジナル)

The algorithms developed for Maritime Autonomous Surface Ships (MASS) are often challenging to test on actual vessels due to high operational costs and safety considerations. Simulations offer a cost-effective alternative and eliminate risks, but they may not accurately represent real-world dynamics for the given tasks. Utilizing small-scale model ships and robotic vessels in conjunction with a laboratory basin provides an accessible testing environment for the early stages of validation processes. However, designing and developing a model vessel for a single test can be costly and cumbersome, and researchers often lack access to such infrastructure. To address these challenges and enable streamlined testing, we have developed an in-house testbed that facilitates the development, testing, verification, and validation of MASS algorithms in a digital-physical laboratory. This infrastructure includes a set of small-scale model vessels, a simulation environment for each vessel, a comprehensive testbed environment, and a digital twin in Unity. With this, we aim to establish a full design and verification pipeline that starts with high-fidelity simulation models of each model vessel, to the model-scale testing in the laboratory basin, allowing possibilities for moving towards semi-fullscale validation with R/V milliAmpere1 and full-scale validation with R/V Gunnerus. In this work, we present our progress on the development of this testbed environment and its components, demonstrating its effectiveness in enabling ship guidance, navigation, and control (GNC), including autonomy.

arxiv情報

著者 Emir Cem Gezer,Mael Korentin Ivan Moreau,Anders Sandneseng Høgden,Dong Trong Nguyen,Roger Skjetne,Asgeir Sørensen
発行日 2025-05-28 12:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Digital-physical testbed for ship autonomy studies in the Marine Cybernetics Laboratory basin はコメントを受け付けていません

Adaptive Distance Functions via Kelvin Transformation

要約

ロボット工学の安全性という用語は、回避の同義語としてしばしば理解されます。
この視点はパス計画とリアクティブ制御の進行につながりましたが、特にテレオ操作中に接触豊富な操作タスクに関連するタスクセマンティクスを含めるには、この視点の一般化が必要です。
ケルビン変換に基づいて、セマンティクス認識距離関数と対応する計算方法を紹介します。
これにより、境界ドメイン内のラプラス方程式を解く代わりに、無制限のドメインで滑らかな距離近似を計算できます。
セマンティクス認識距離は、安全セットの適応的な暗黙的表現で、オブジェクトアフォーダンスなどのタスクセマンティクスを効果的に組み込んで、接触が許可されている領域のオブジェクトの内側にゼロレベルセットを可能にすることにより、署名された距離関数を一般化します。
数値実験では、実際のアプリケーションの方法の計算実行可能性を示し、さまざまなセマンティック領域を持つレンチで計算された関数を視覚化します。

要約(オリジナル)

The term safety in robotics is often understood as a synonym for avoidance. Although this perspective has led to progress in path planning and reactive control, a generalization of this perspective is necessary to include task semantics relevant to contact-rich manipulation tasks, especially during teleoperation and to ensure the safety of learned policies. We introduce the semantics-aware distance function and a corresponding computational method based on the Kelvin Transformation. This allows us to compute smooth distance approximations in an unbounded domain by instead solving a Laplace equation in a bounded domain. The semantics-aware distance generalizes signed distance functions by allowing the zero level set to lie inside of the object in regions where contact is allowed, effectively incorporating task semantics, such as object affordances, in an adaptive implicit representation of safe sets. In numerical experiments we show the computational viability of our method for real applications and visualize the computed function on a wrench with various semantic regions.

arxiv情報

著者 Rafael I. Cabral Muchacho,Florian T. Pokorny
発行日 2025-05-28 13:10:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9 | Adaptive Distance Functions via Kelvin Transformation はコメントを受け付けていません

UP-SLAM: Adaptively Structured Gaussian SLAM with Uncertainty Prediction in Dynamic Environments

要約

視覚的な同時ローカリゼーションとマッピング(SLAM)のための最近の3Dガウススプラッティング(3DGS)技術は、追跡と高忠実度マッピングで大幅に進歩しています。
ただし、それらの連続的な最適化フレームワークと動的オブジェクトに対する感度は、実際のシナリオでのリアルタイムのパフォーマンスと堅牢性を制限します。
並列化されたフレームワークの追跡とマッピングを切り離す動的環境のためのリアルタイムRGB-DスラムシステムであるUpSlamを提示します。
確率的なオクトリーが採用され、ガウスプリミティブを適応的に管理し、手作りのしきい値なしで効率的な初期化と剪定を可能にします。
追跡中に動的領域を堅牢にフィルタリングするために、マルチモーダル残差を融合してピクセルあたりのモーションの不確実性を推定し、セマンティックラベルに依存せずにオープンセットの動的オブジェクト処理を達成するトレーニングフリーの不確実性推定器を提案します。
さらに、一時的なエンコーダーは、レンダリング品質を向上させるように設計されています。
同時に、低次元の特徴は、浅い多層パーセプトロンを介して効率的に変換され、ディノの特徴を構築します。ディノの特徴は、ガウスフィールドを濃縮し、不確実性予測の堅牢性を向上させるために使用されます。
複数の挑戦的なデータセットでの広範な実験は、アップスラムがローカリゼーションの精度(59.8%)とレンダリング品質(4.57 dB PSNR)の両方で最先端の方法を上回ることを示唆しています。
https://aczheng-cai.github.io/up_slam.github.io/

要約(オリジナル)

Recent 3D Gaussian Splatting (3DGS) techniques for Visual Simultaneous Localization and Mapping (SLAM) have significantly progressed in tracking and high-fidelity mapping. However, their sequential optimization framework and sensitivity to dynamic objects limit real-time performance and robustness in real-world scenarios. We present UP-SLAM, a real-time RGB-D SLAM system for dynamic environments that decouples tracking and mapping through a parallelized framework. A probabilistic octree is employed to manage Gaussian primitives adaptively, enabling efficient initialization and pruning without hand-crafted thresholds. To robustly filter dynamic regions during tracking, we propose a training-free uncertainty estimator that fuses multi-modal residuals to estimate per-pixel motion uncertainty, achieving open-set dynamic object handling without reliance on semantic labels. Furthermore, a temporal encoder is designed to enhance rendering quality. Concurrently, low-dimensional features are efficiently transformed via a shallow multilayer perceptron to construct DINO features, which are then employed to enrich the Gaussian field and improve the robustness of uncertainty prediction. Extensive experiments on multiple challenging datasets suggest that UP-SLAM outperforms state-of-the-art methods in both localization accuracy (by 59.8%) and rendering quality (by 4.57 dB PSNR), while maintaining real-time performance and producing reusable, artifact-free static maps in dynamic environments.The project: https://aczheng-cai.github.io/up_slam.github.io/

arxiv情報

著者 Wancai Zheng,Linlin Ou,Jiajie He,Libo Zhou,Xinyi Yu,Yan Wei
発行日 2025-05-28 13:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UP-SLAM: Adaptively Structured Gaussian SLAM with Uncertainty Prediction in Dynamic Environments はコメントを受け付けていません

Task-Driven Implicit Representations for Automated Design of LiDAR Systems

要約

イメージングシステムの設計は、複雑で時間がかかり、大部分が手動プロセスです。
モバイルデバイス、自動運転車、航空イメージングプラットフォームで遍在するLIDARデザインは、ユニークな空間的および時間的サンプリング要件を通じてさらに複雑さを追加します。
この作業では、任意の制約の下で自動化されたタスク駆動型のLIDARシステム設計のフレームワークを提案します。
これを達成するために、連続6次元設計空間でLIDAR構成を表し、フローベースの生成モデリングを介してこの空間のタスク固有の暗黙的密度を学習します。
次に、センサーを6D空間のパラメトリック分布としてモデル化し、期待最大化を使用して学習した暗黙の密度にこれらの分布を適合させ、効率的で制約対応のLIDARシステム設計を可能にすることにより、新しいLIDARシステムを合成します。
3Dビジョンの多様なタスクに関する方法を検証し、フェイススキャン、ロボット追跡、オブジェクトの検出における現実世界にインスパイアされたアプリケーション全体で自動化されたLIDARシステム設計を可能にします。

要約(オリジナル)

Imaging system design is a complex, time-consuming, and largely manual process; LiDAR design, ubiquitous in mobile devices, autonomous vehicles, and aerial imaging platforms, adds further complexity through unique spatial and temporal sampling requirements. In this work, we propose a framework for automated, task-driven LiDAR system design under arbitrary constraints. To achieve this, we represent LiDAR configurations in a continuous six-dimensional design space and learn task-specific implicit densities in this space via flow-based generative modeling. We then synthesize new LiDAR systems by modeling sensors as parametric distributions in 6D space and fitting these distributions to our learned implicit density using expectation-maximization, enabling efficient, constraint-aware LiDAR system design. We validate our method on diverse tasks in 3D vision, enabling automated LiDAR system design across real-world-inspired applications in face scanning, robotic tracking, and object detection.

arxiv情報

著者 Nikhil Behari,Aaron Young,Akshat Dave,Ramesh Raskar
発行日 2025-05-28 13:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Task-Driven Implicit Representations for Automated Design of LiDAR Systems はコメントを受け付けていません

Robust Contact-rich Manipulation through Implicit Motor Adaptation

要約

連絡先が豊富な操作は、毎日の人間の活動において重要な役割を果たします。
ただし、不確実な物理的パラメーターは、多くの場合、計画と制御の両方に大きな課題をもたらします。
有望な戦略は、幅広いパラメーターにわたって堅牢なポリシーを開発することです。
ドメインの適応とドメインのランダム化は広く使用されていますが、インスタンス固有の情報を無視しているため、一般化を新しいインスタンスに制限するか、保守的に実行する傾向があります。
\ textIT {明示的なモーター適応}は、システムパラメーターをオンラインで推定し、パラメーターが整った基本ポリシーからパラメーター条件付きポリシーを取得することにより、これらの問題に対処します。
ただし、通常、学生ポリシーの正確なシステム識別または追加のトレーニングが必要です。どちらも、さまざまな物理的パラメーターを備えた接触豊富な操作タスクで困難です。
この作業では、\ textIT {暗黙的なモーター適応}を提案します。これにより、単一の推定ではなく、ほぼ推定されたパラメーター分布を考慮して、パラメーター条件付きポリシー検索が可能になります。
テンソルトレインは、基本ポリシーの暗黙的な表現として活用し、テンソルコアの分離可能な構造を活用することにより、パラメーター条件付きポリシーの効率的な検索を促進します。
このフレームワークは、最適な動作と強力な一般化を維持しながら、正確なシステムの推定とポリシー再訓練の必要性を排除します。
3つの接触豊富な操作プリミティブの数値評価によってサポートされているアプローチを検証するための理論分析を提供します。
シミュレーションと現実世界の両方の実験は、多様なインスタンスで堅牢なポリシーを生成する能力を示しています。
プロジェクトWebサイト:\ href {https://sites.google.com/view/implicit-ma} {https://sites.google.com/view/implicit-ma}。

要約(オリジナル)

Contact-rich manipulation plays an important role in daily human activities. However, uncertain physical parameters often pose significant challenges for both planning and control. A promising strategy is to develop policies that are robust across a wide range of parameters. Domain adaptation and domain randomization are widely used, but they tend to either limit generalization to new instances or perform conservatively due to neglecting instance-specific information. \textit{Explicit motor adaptation} addresses these issues by estimating system parameters online and then retrieving the parameter-conditioned policy from a parameter-augmented base policy. However, it typically requires precise system identification or additional training of a student policy, both of which are challenging in contact-rich manipulation tasks with diverse physical parameters. In this work, we propose \textit{implicit motor adaptation}, which enables parameter-conditioned policy retrieval given a roughly estimated parameter distribution instead of a single estimate. We leverage tensor train as an implicit representation of the base policy, facilitating efficient retrieval of the parameter-conditioned policy by exploiting the separable structure of tensor cores. This framework eliminates the need for precise system estimation and policy retraining while preserving optimal behavior and strong generalization. We provide a theoretical analysis to validate the approach, supported by numerical evaluations on three contact-rich manipulation primitives. Both simulation and real-world experiments demonstrate its ability to generate robust policies across diverse instances. Project website: \href{https://sites.google.com/view/implicit-ma}{https://sites.google.com/view/implicit-ma}.

arxiv情報

著者 Teng Xue,Amirreza Razmjoo,Suhan Shetty,Sylvain Calinon
発行日 2025-05-28 14:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robust Contact-rich Manipulation through Implicit Motor Adaptation はコメントを受け付けていません