SignBot: Learning Human-to-Humanoid Sign Language Interaction

要約

手話は、動きと表現を使用して意味を伝える自然で視覚的な形式であり、耳が聞こえない、または耳を傾ける個人のコミュニケーションの重要な手段として機能します(DHH)。
しかし、手話に熟練した人の数は限られたままであり、コミュニケーションのギャップを橋渡しし、少数派との相互作用を促進するための技術的進歩の必要性を強調しています。
具体化されたヒューマノイドロボットの最近の進歩に基づいて、人間のロボット手話相互作用のための新しいフレームワークであるSignbotを提案します。
Signbotは、理解と相互作用のための小脳にインスパイアされたモーション制御コンポーネントと脳指向のモジュールを統合します。
具体的には、Signbotは以下で構成されています。1)人間の手話データセットをロボット互換の運動学に変換するモーションリターゲティング。
2)学習ベースのパラダイムを活用して、手話のジェスチャーを追跡するための堅牢なヒューマノイド制御ポリシーを開発するモーションコントロール。
3)手話の翻訳者、レスカー、および発電機を組み込んだ生成的相互作用により、ロボットと人間間の自然で効果的なコミュニケーションが可能になります。
シミュレーションと現実世界の実験結果は、Signbotが人間とロボットの相互作用を効果的に促進し、多様なロボットとデータセットで手話の動きを実行できることを示しています。
Signbotは、具体化されたヒューマノイドロボットプラットフォームでの自動手話相互作用の大幅な進歩を表し、DHHコミュニティのコミュニケーションアクセシビリティを改善するための有望なソリューションを提供します。

要約(オリジナル)

Sign language is a natural and visual form of language that uses movements and expressions to convey meaning, serving as a crucial means of communication for individuals who are deaf or hard-of-hearing (DHH). However, the number of people proficient in sign language remains limited, highlighting the need for technological advancements to bridge communication gaps and foster interactions with minorities. Based on recent advancements in embodied humanoid robots, we propose SignBot, a novel framework for human-robot sign language interaction. SignBot integrates a cerebellum-inspired motion control component and a cerebral-oriented module for comprehension and interaction. Specifically, SignBot consists of: 1) Motion Retargeting, which converts human sign language datasets into robot-compatible kinematics; 2) Motion Control, which leverages a learning-based paradigm to develop a robust humanoid control policy for tracking sign language gestures; and 3) Generative Interaction, which incorporates translator, responser, and generator of sign language, thereby enabling natural and effective communication between robots and humans. Simulation and real-world experimental results demonstrate that SignBot can effectively facilitate human-robot interaction and perform sign language motions with diverse robots and datasets. SignBot represents a significant advancement in automatic sign language interaction on embodied humanoid robot platforms, providing a promising solution to improve communication accessibility for the DHH community.

arxiv情報

著者 Guanren Qiao,Sixu Lin,Ronglai Zuo Zhizheng Wu,Kui Jia,Guiliang Liu
発行日 2025-05-30 06:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | SignBot: Learning Human-to-Humanoid Sign Language Interaction はコメントを受け付けていません

Accelerating the Evolution of Personalized Automated Lane Change through Lesson Learning

要約

高度なドライバー支援システムの広範な採用には、パーソナライズが重要です。
各ユーザーの好みに合わせて、オンライン進化機能は必須です。
ただし、従来の進化方法は、多くのコンピューティングパワーを必要とする自然主義的な運転データから学習し、オンラインで適用できません。
この課題に対処するために、このペーパーでは、レッスン学習アプローチを提案します。ドライバーの買収介入からの学習です。
オンラインテイクオーバーデータを活用することにより、駆動ゾーンが生成され、ガウス判別分析を使用して知覚される安全性を確保します。
軌跡計画の報酬に対するリアルタイムの修正は、見習い学習を通じて制定されます。
運転ゾーンの制約内で報酬を最適化する目的に導かれたこのアプローチは、軌道計画のためにモデル予測制御を採用しています。
このレッスン学習のフレームワークは、そのより速い進化能力、経験の蓄積の熟練度、知覚された安全性の保証、および計算効率のために強調されています。
シミュレーション結果は、提案されたシステムが、さらに買収介入なしにカスタマイズを成功させることを一貫して達成することを示しています。
蓄積された経験により、進化効率が24%増加します。
学習反復の平均数はわずか13.8です。
平均計算時間は0.08秒です。

要約(オリジナル)

Personalization is crucial for the widespread adoption of advanced driver assistance system. To match up with each user’s preference, the online evolution capability is a must. However, conventional evolution methods learn from naturalistic driving data, which requires a lot computing power and cannot be applied online. To address this challenge, this paper proposes a lesson learning approach: learning from driver’s takeover interventions. By leveraging online takeover data, the driving zone is generated to ensure perceived safety using Gaussian discriminant analysis. Real-time corrections to trajectory planning rewards are enacted through apprenticeship learning. Guided by the objective of optimizing rewards within the constraints of the driving zone, this approach employs model predictive control for trajectory planning. This lesson learning framework is highlighted for its faster evolution capability, adeptness at experience accumulating, assurance of perceived safety, and computational efficiency. Simulation results demonstrate that the proposed system consistently achieves a successful customization without further takeover interventions. Accumulated experience yields a 24% enhancement in evolution efficiency. The average number of learning iterations is only 13.8. The average computation time is 0.08 seconds.

arxiv情報

著者 Jia Hu,Mingyue Lei,Haoran Wang,Zeyu Liu,Fan Yang
発行日 2025-05-30 07:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Accelerating the Evolution of Personalized Automated Lane Change through Lesson Learning はコメントを受け付けていません

A Comprehensive Survey on Physical Risk Control in the Era of Foundation Model-enabled Robotics

要約

最近のファンデーションモデル対応ロボット(FMRS)は、一般的な汎用スキルを大幅に改善し、従来のロボット工学よりも適応性のある自動化を可能にします。
したがって、多様なタスクを処理する能力は、人間の労働を置き換える新しい機会を生み出します。
ただし、一般的な基礎モデルとは異なり、FMRは物理的な世界と相互作用します。物理的な世界と、その行動は人間と周囲のオブジェクトの安全性に直接影響し、慎重な展開と制御が必要です。
この命題に基づいて、我々の調査では、展開前から事前の段階までのFMRのすべての寿命をカバーすることにより、物理的リスクを軽減するためのロボット制御アプローチを包括的に要約しています。
具体的には、タイムラインを次の3つのフェーズに広く分割します。(1)展開前段階、(2)事前段階、および(3)インテキション後の段階。
この調査を通して、(i)事前のリスク軽減戦略、(ii)人間との物理的相互作用を想定する研究、および(iii)基礎モデル自体の本質的な問題を想定する研究がたくさんあることがわかります。
この調査が、FMRの物理的リスクとそのコントロールの高解像度分析を提供し、優れた人間とロボットの関係の実現に貢献するマイルストーンになることを願っています。

要約(オリジナル)

Recent Foundation Model-enabled robotics (FMRs) display greatly improved general-purpose skills, enabling more adaptable automation than conventional robotics. Their ability to handle diverse tasks thus creates new opportunities to replace human labor. However, unlike general foundation models, FMRs interact with the physical world, where their actions directly affect the safety of humans and surrounding objects, requiring careful deployment and control. Based on this proposition, our survey comprehensively summarizes robot control approaches to mitigate physical risks by covering all the lifespan of FMRs ranging from pre-deployment to post-accident stage. Specifically, we broadly divide the timeline into the following three phases: (1) pre-deployment phase, (2) pre-incident phase, and (3) post-incident phase. Throughout this survey, we find that there is much room to study (i) pre-incident risk mitigation strategies, (ii) research that assumes physical interaction with humans, and (iii) essential issues of foundation models themselves. We hope that this survey will be a milestone in providing a high-resolution analysis of the physical risks of FMRs and their control, contributing to the realization of a good human-robot relationship.

arxiv情報

著者 Takeshi Kojima,Yaonan Zhu,Yusuke Iwasawa,Toshinori Kitamura,Gang Yan,Shu Morikuni,Ryosuke Takanami,Alfredo Solano,Tatsuya Matsushima,Akiko Murakami,Yutaka Matsuo
発行日 2025-05-30 07:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | A Comprehensive Survey on Physical Risk Control in the Era of Foundation Model-enabled Robotics はコメントを受け付けていません

SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping

要約

3Dロボット操作の最近の進歩により、日常のオブジェクトの把握が改善されましたが、深さの検知の制限により、透明で鏡面の素材が依然として困難なままです。
いくつかの3D再構成と深さ完了アプローチはこれらの課題に対処しますが、セットアップの複雑さまたは限られた観察情報の利用に苦しんでいます。
これに対処するために、シングルビュー3Dオブジェクト再構成アプローチの力を活用するために、単一ビューの観察から透明で鏡面オブジェクトのロボット把握を可能にするトレーニングフリーフレームワークSR3Dを提案します。
具体的には、シングルビューRGBおよび深度画像が与えられたSR3Dは、最初に外部視覚モデルを使用して、RGB画像に基づいて3D再構成されたオブジェクトメッシュを生成します。
次に、重要なアイデアは、3Dオブジェクトのポーズとスケールを決定して、再構築されたオブジェクトを元の深さ破損した3Dシーンに正確にローカライズすることです。
したがって、ビューマッチングおよびキーポイントマッチングメカニズムを提案します。これは、観察中の2Dおよび3Dの固有のセマンティック情報と幾何学的情報の両方を活用して、シーン内のオブジェクトの3D状態を決定し、それによって効果的な把持検出のために正確な3D深度マップを再構築します。
シミュレーションと現実世界の両方での実験は、SR3Dの再構築効果を示しています。

要約(オリジナル)

Recent advancements in 3D robotic manipulation have improved grasping of everyday objects, but transparent and specular materials remain challenging due to depth sensing limitations. While several 3D reconstruction and depth completion approaches address these challenges, they suffer from setup complexity or limited observation information utilization. To address this, leveraging the power of single view 3D object reconstruction approaches, we propose a training free framework SR3D that enables robotic grasping of transparent and specular objects from a single view observation. Specifically, given single view RGB and depth images, SR3D first uses the external visual models to generate 3D reconstructed object mesh based on RGB image. Then, the key idea is to determine the 3D object’s pose and scale to accurately localize the reconstructed object back into its original depth corrupted 3D scene. Therefore, we propose view matching and keypoint matching mechanisms,which leverage both the 2D and 3D’s inherent semantic and geometric information in the observation to determine the object’s 3D state within the scene, thereby reconstructing an accurate 3D depth map for effective grasp detection. Experiments in both simulation and real world show the reconstruction effectiveness of SR3D.

arxiv情報

著者 Mingxu Zhang,Xiaoqi Li,Jiahui Xu,Kaichen Zhou,Hojin Bae,Yan Shen,Chuyan Xiong,Jiaming Liu,Hao Dong
発行日 2025-05-30 07:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping はコメントを受け付けていません

DTR: Delaunay Triangulation-based Racing for Scaled Autonomous Racing

要約

自律レース用のリアクティブコントローラーは、制御アクションにセンサー入力を直接マッピングし、ローカリゼーションと計画の必要性を排除することにより、完全なEE-Think-ACT Autonomy Stackの計算オーバーヘッドを回避します。
広く使用されているリアクティブ戦略はFTGで、Lidar範囲の測定値のギャップを識別し、選択したものに向かって操縦します。
FTGは、完全に境界のある回路で有効になりますが、境界が不完全なシナリオで失敗し、FTGトラップとして知られる行き止まりに駆動する傾向があります。
この作業では、生のライダーの測定値からのDelaunayの三角形分割を組み合わせた反応性コントローラーであるDTRを、トラック境界セグメンテーションと、FTGトラップを体系的に避けながら中心線を抽出します。
FTGと比較して、提案された方法は、70 \%が高速なラップタイムを達成し、MAP依存の方法のパフォーマンスに近づきます。
8.95ミリ秒のレイテンシとロボットのOBCでのみ38.85 \%のCPU使用量で、DTRはリアルタイムの有能であり、フィールド実験で正常に展開および評価されています。

要約(オリジナル)

Reactive controllers for autonomous racing avoid the computational overhead of full ee-Think-Act autonomy stacks by directly mapping sensor input to control actions, eliminating the need for localization and planning. A widely used reactive strategy is FTG, which identifies gaps in LiDAR range measurements and steers toward a chosen one. While effective on fully bounded circuits, FTG fails in scenarios with incomplete boundaries and is prone to driving into dead-ends, known as FTG-traps. This work presents DTR, a reactive controller that combines Delaunay triangulation, from raw LiDAR readings, with track boundary segmentation to extract a centerline while systematically avoiding FTG-traps. Compared to FTG, the proposed method achieves lap times that are 70\% faster and approaches the performance of map-dependent methods. With a latency of 8.95 ms and CPU usage of only 38.85\% on the robot’s OBC, DTR is real-time capable and has been successfully deployed and evaluated in field experiments.

arxiv情報

著者 Luca Tognoni,Neil Reichlin,Edoardo Ghignone,Nicolas Baumann,Steven Marty,Liam Boyle,Michele Magno
発行日 2025-05-30 08:02:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DTR: Delaunay Triangulation-based Racing for Scaled Autonomous Racing はコメントを受け付けていません

Imitation Learning-Based Path Generation for the Complex Assembly of Deformable Objects

要約

このペーパーでは、変形可能なオブジェクトのアセンブリの高品質の経路の設計を容易にするために、学習を使用する方法を調査します。
オブジェクトのダイナミクスは、変形可能なオブジェクトを操作するときに重要な役割を果たします。
したがって、変形可能なオブジェクトのモーション計画を実行するときに、詳細なモデルがよく使用されます。
オブジェクトの単純な動的モデルのみを使用して、変形可能なオブジェクトのモーション計画を可能にするために、人間のデモと学習を使用することを提案します。
特に、オフラインの衝突のないパス計画を使用して、変形可能なオブジェクトの単純なモデルに基づいて多数の参照パスを生成します。
その後、人間がパスをわずかに変更してタスクを正常に完了することができるように、準拠したコントロールを備えたロボット上の衝突のないパスを実行します。
最後に、仮想パスデータセットと人間の修正されたデータセットに基づいて、動作クローニング(BC)を使用して、1つの参照パスに従って特定のタスクを完了する器用なポリシーを作成します。

要約(オリジナル)

This paper investigates how learning can be used to ease the design of high-quality paths for the assembly of deformable objects. Object dynamics plays an important role when manipulating deformable objects; thus, detailed models are often used when conducting motion planning for deformable objects. We propose to use human demonstrations and learning to enable motion planning of deformable objects with only simple dynamical models of the objects. In particular, we use the offline collision-free path planning, to generate a large number of reference paths based on a simple model of the deformable object. Subsequently, we execute the collision-free paths on a robot with a compliant control such that a human can slightly modify the path to complete the task successfully. Finally, based on the virtual path data sets and the human corrected ones, we use behavior cloning (BC) to create a dexterous policy that follows one reference path to finish a given task.

arxiv情報

著者 Yitaek Kim,Christoffer Sloth
発行日 2025-05-30 08:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Imitation Learning-Based Path Generation for the Complex Assembly of Deformable Objects はコメントを受け付けていません

Collision Probability Estimation for Optimization-based Vehicular Motion Planning

要約

自動運転のための多くのモーション計画アルゴリズムは、道路利用者の動きの測定と推定の不確実性を説明するために衝突の確率(POC)を推定する必要があります。
一般的なPOC推定手法は、多くの場合、計算の非効率性と非決定的推定に悩まされるサンプリングベースの方法を利用します。つまり、同じ入力の各推定結果はわずかに異なります。
対照的に、最適化ベースのモーション計画アルゴリズムには、理想的には決定論的推定を使用して計算上の効率的なPOC推定が必要であり、モーション計画の典型的な最適化アルゴリズムは実現可能性を保持します。
ただし、POCを分析的に推定することは、衝突条件(車両の形状など)の理解と動きの予測の不確実性の特徴に依存するため、困難です。
この論文では、複数の円形の形状近似で形状を過剰に並べることにより、2台の車両間のPOCを推定するアプローチを提案します。
予測された車両の位置と見出しは、ランダム変数としてモデル化されており、文献とは対照的であり、見出し角がしばしば無視されます。
提供されたPOCが過剰承認であることを保証します。これは、安全保証を提供するのに不可欠であり、位置と見出しにおけるガウスの不確実性のPOC推定値を計算するための計算効率的なアルゴリズムを提示します。
このアルゴリズムは、モーションプランニングのためにパスフォローする確率モデル予測コントローラー(SMPC)で使用されます。
提案されたアルゴリズムを使用すると、SMPCは再現可能な軌跡を生成し、コントローラーは提示されたテストケースでの実現可能性を保持し、さまざまなレベルの不確実性を処理する能力を実証します。

要約(オリジナル)

Many motion planning algorithms for automated driving require estimating the probability of collision (POC) to account for uncertainties in the measurement and estimation of the motion of road users. Common POC estimation techniques often utilize sampling-based methods that suffer from computational inefficiency and a non-deterministic estimation, i.e., each estimation result for the same inputs is slightly different. In contrast, optimization-based motion planning algorithms require computationally efficient POC estimation, ideally using deterministic estimation, such that typical optimization algorithms for motion planning retain feasibility. Estimating the POC analytically, however, is challenging because it depends on understanding the collision conditions (e.g., vehicle’s shape) and characterizing the uncertainty in motion prediction. In this paper, we propose an approach in which we estimate the POC between two vehicles by over-approximating their shapes by a multi-circular shape approximation. The position and heading of the predicted vehicle are modelled as random variables, contrasting with the literature, where the heading angle is often neglected. We guarantee that the provided POC is an over-approximation, which is essential in providing safety guarantees, and present a computationally efficient algorithm for computing the POC estimate for Gaussian uncertainty in the position and heading. This algorithm is then used in a path-following stochastic model predictive controller (SMPC) for motion planning. With the proposed algorithm, the SMPC generates reproducible trajectories while the controller retains its feasibility in the presented test cases and demonstrates the ability to handle varying levels of uncertainty.

arxiv情報

著者 Leon Tolksdorf,Arturo Tejada,Christian Birkner,Nathan van de Wouw
発行日 2025-05-30 08:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | Collision Probability Estimation for Optimization-based Vehicular Motion Planning はコメントを受け付けていません

Learning-Based Leader Localization for Underwater Vehicles With Optical-Acoustic-Pressure Sensor Fusion

要約

水中車両は、水生環境を探索および監視するための重要な技術として浮上しています。
マルチビェクルシステムの展開は、効率が向上した共同タスクを実行する能力により、大きな関心を集めています。
ただし、特に動的で複雑な水中条件において、マルチ車両構成内でリーダーの水中車両の正確なローカリゼーションを実現することは、重要な課題のままです。
この問題に対処するために、このペーパーでは、光学、音響、圧力センサーを統合してリーダー車両をローカライズする新しいトライモーダルセンサー融合ニューラルネットワークアプローチを紹介します。
提案された方法は、各センサーモダリティのユニークな強度を活用して、ローカリゼーションの精度と堅牢性を向上させます。
具体的には、光学センサーは、正確な相対的なポジショニング、音響センサーを有効にするための高解像度イメージングを提供し、長距離検出と範囲を可能にし、圧力センサーは環境コンテキストの認識を提供します。
これらのセンサーモダリティの融合は、生センサーデータから相補的な機能を抽出して組み合わせるように設計された深い学習アーキテクチャを使用して実装されます。
提案された方法の有効性は、カスタム設計のテストプラットフォームを通じて検証されます。
広範なデータ収集と実験的評価は、トライモーダルアプローチがリーダーのローカリゼーションの精度と堅牢性を大幅に改善し、シングルモーダルとデュアルモーダルの両方の方法を上回ることを示しています。

要約(オリジナル)

Underwater vehicles have emerged as a critical technology for exploring and monitoring aquatic environments. The deployment of multi-vehicle systems has gained substantial interest due to their capability to perform collaborative tasks with improved efficiency. However, achieving precise localization of a leader underwater vehicle within a multi-vehicle configuration remains a significant challenge, particularly in dynamic and complex underwater conditions. To address this issue, this paper presents a novel tri-modal sensor fusion neural network approach that integrates optical, acoustic, and pressure sensors to localize the leader vehicle. The proposed method leverages the unique strengths of each sensor modality to improve localization accuracy and robustness. Specifically, optical sensors provide high-resolution imaging for precise relative positioning, acoustic sensors enable long-range detection and ranging, and pressure sensors offer environmental context awareness. The fusion of these sensor modalities is implemented using a deep learning architecture designed to extract and combine complementary features from raw sensor data. The effectiveness of the proposed method is validated through a custom-designed testing platform. Extensive data collection and experimental evaluations demonstrate that the tri-modal approach significantly improves the accuracy and robustness of leader localization, outperforming both single-modal and dual-modal methods.

arxiv情報

著者 Mingyang Yang,Zeyu Sha,Feitian Zhang
発行日 2025-05-30 09:10:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning-Based Leader Localization for Underwater Vehicles With Optical-Acoustic-Pressure Sensor Fusion はコメントを受け付けていません

MagicGripper: A Multimodal Sensor-Integrated Gripper for Contact-Rich Robotic Manipulation

要約

構造化されていない環境での接触リッチ操作には、堅牢で適応的な制御を可能にするために、正確でマルチモーダルな知覚が必要です。
視覚ベースの触覚センサー(VBTS)は、効果的なソリューションとして浮上しています。
ただし、従来のVBTSは、ハードウェアの制約とアルゴリズムの複雑さのために、コンパクトでマルチモーダル機能を達成する上で課題に直面することがよくあります。
この作業では、接触豊富なロボット操作用に設計されたマルチモーダルセンサー統合グリッパーであるMagicGripperを紹介します。
以前のデザインであるMagictacに基づいて、コンパクトなバリアントであるMini-Magictacを開発します。これは、ソフトエラストマーに埋め込まれた3次元の多層グリッドを特徴としています。
MagicGripperはMini-Magictacを統合し、コンパクトでグリッパー互換フォームファクター内の近接性と視覚センシングとともに高解像度の触覚フィードバックを可能にします。
Mini-Magictacのパフォーマンスを徹底的に評価し、空間解像度、接触ローカリゼーション、および力回帰にその能力を実証します。
また、現実世界の条件下での製造の変動、機械的変形、およびセンシングパフォーマンス全体の堅牢性を評価します。
さらに、3つの代表的なロボットタスクを使用して、MagicGripperの有効性を検証します。テレロイザーアセンブリタスク、連絡先ベースのアライメントタスク、および自律的なロボットグラッピングタスクです。
これらの実験全体で、MagicGripperは、信頼できるマルチモーダル認識、正確な力の推定、および挑戦的な操作シナリオへの高い適応性を示します。
私たちの結果は、複雑で接触豊富な環境で具体化されたインテリジェンスのための実用的で汎用性の高いツールとしてのMagicGripperの可能性を強調しています。

要約(オリジナル)

Contact-rich manipulation in unstructured environments demands precise, multimodal perception to enable robust and adaptive control. Vision-based tactile sensors (VBTSs) have emerged as an effective solution; however, conventional VBTSs often face challenges in achieving compact, multi-modal functionality due to hardware constraints and algorithmic complexity. In this work, we present MagicGripper, a multimodal sensor-integrated gripper designed for contact-rich robotic manipulation. Building on our prior design, MagicTac, we develop a compact variant, mini-MagicTac, which features a three-dimensional, multi-layered grid embedded in a soft elastomer. MagicGripper integrates mini-MagicTac, enabling high-resolution tactile feedback alongside proximity and visual sensing within a compact, gripper-compatible form factor. We conduct a thorough evaluation of mini-MagicTac’s performance, demonstrating its capabilities in spatial resolution, contact localization, and force regression. We also assess its robustness across manufacturing variability, mechanical deformation, and sensing performance under real-world conditions. Furthermore, we validate the effectiveness of MagicGripper through three representative robotic tasks: a teleoperated assembly task, a contact-based alignment task, and an autonomous robotic grasping task. Across these experiments, MagicGripper exhibits reliable multimodal perception, accurate force estimation, and high adaptability to challenging manipulation scenarios. Our results highlight the potential of MagicGripper as a practical and versatile tool for embodied intelligence in complex, contact-rich environments.

arxiv情報

著者 Wen Fan,Haoran Li,Dandan Zhang
発行日 2025-05-30 09:10:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | MagicGripper: A Multimodal Sensor-Integrated Gripper for Contact-Rich Robotic Manipulation はコメントを受け付けていません

SAH-Drive: A Scenario-Aware Hybrid Planner for Closed-Loop Vehicle Trajectory Generation

要約

信頼できる計画は、自律運転を達成するために重要です。
ルールベースのプランナーは効率的ですが、一般化が欠けていますが、学習ベースのプランナーは一般化に優れていますが、リアルタイムのパフォーマンスと解釈性に制限があります。
ロングテールシナリオでは、これらの課題により、計画は特に困難になります。
ルールベースと学習ベースのプランナーの両方の強みを活用するために、閉ループ車両軌道計画のシナリオアウェアハイブリッドプランナー(SAHドライブ)を提案しました。
SAH-Driveは、人間の運転行動に触発され、軽量のルールベースのプランナーと包括的な学習ベースのプランナーを組み合わせて、デュアルタイムスケールの決定ニューロンを利用して最終的な軌跡を決定します。
ハイブリッドプランナーの計算効率と堅牢性を高めるために、拡散提案番号レギュレーターと軌道融合モジュールも採用しました。
実験結果は、提案された方法が計画システムの一般化能力を大幅に改善し、実質的なランタイムを発生させることなく計算効率を維持しながら、インタープランで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Reliable planning is crucial for achieving autonomous driving. Rule-based planners are efficient but lack generalization, while learning-based planners excel in generalization yet have limitations in real-time performance and interpretability. In long-tail scenarios, these challenges make planning particularly difficult. To leverage the strengths of both rule-based and learning-based planners, we proposed the Scenario-Aware Hybrid Planner (SAH-Drive) for closed-loop vehicle trajectory planning. Inspired by human driving behavior, SAH-Drive combines a lightweight rule-based planner and a comprehensive learning-based planner, utilizing a dual-timescale decision neuron to determine the final trajectory. To enhance the computational efficiency and robustness of the hybrid planner, we also employed a diffusion proposal number regulator and a trajectory fusion module. The experimental results show that the proposed method significantly improves the generalization capability of the planning system, achieving state-of-the-art performance in interPlan, while maintaining computational efficiency without incurring substantial additional runtime.

arxiv情報

著者 Yuqi Fan,Zhiyong Cui,Zhenning Li,Yilong Ren,Haiyang Yu
発行日 2025-05-30 09:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SAH-Drive: A Scenario-Aware Hybrid Planner for Closed-Loop Vehicle Trajectory Generation はコメントを受け付けていません