MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

要約

モバイル操作は、日常生活における多様なタスクと環境を持つ人間を支援するためのロボット工学の基本的な課題です。
ただし、大規模なトレーニングが不足しているため、従来のモバイル操作アプローチは、さまざまなタスクや環境にわたって一般化するのに苦労しています。
対照的に、ビジョン言語アクション(VLA)モデルの最近の進歩は印象的な一般化能力を示していますが、これらの基礎モデルは固定ベース操作タスクのために開発されています。
したがって、MoManipVLAという名前の効率的なポリシー適応フレームワークを提案して、モバイル操作に高訓練を受けたVLAモデルをモバイル操作に転送し、モバイル操作ポリシーでタスクや環境全体で高い一般化能力を達成できるようにします。
具体的には、事前に訓練されたVLAモデルを利用して、一般化能力が高いエンドエフェクターのウェイポイントを生成します。
軌跡の物理的な実現可能性を最大化することを目的としたモバイルベースとロボットアームのモーション計画目標を設計します。
最後に、軌道生成のための効率的なバイレベルの客観的最適化フレームワークを提示します。上部レベルの最適化により、マニピュレーターポリシー空間を強化するためのベース移動のウェイポイントを予測し、低レベルの最適化により、操作タスクを完了するための最適なエンド効果軌道を選択します。
このようにして、Momanipvlaはロボットベースの位置をゼロショット方法で調整できるため、固定ベースのVLAモデルから予測可能になります。
OVMMと現実の世界に関する広範な実験結果は、Momanipvlaが最先端のモバイル操作よりも4.2%高い成功率を達成しており、事前に訓練されたVLAモデルの強力な一般化能力のため、実世界の展開に50のトレーニングコストを必要とすることを示しています。

要約(オリジナル)

Mobile manipulation is the fundamental challenge for robotics to assist humans with diverse tasks and environments in everyday life. However, conventional mobile manipulation approaches often struggle to generalize across different tasks and environments because of the lack of large-scale training. In contrast, recent advances in vision-language-action (VLA) models have shown impressive generalization capabilities, but these foundation models are developed for fixed-base manipulation tasks. Therefore, we propose an efficient policy adaptation framework named MoManipVLA to transfer pre-trained VLA models of fix-base manipulation to mobile manipulation, so that high generalization ability across tasks and environments can be achieved in mobile manipulation policy. Specifically, we utilize pre-trained VLA models to generate waypoints of the end-effector with high generalization ability. We design motion planning objectives for the mobile base and the robot arm, which aim at maximizing the physical feasibility of the trajectory. Finally, we present an efficient bi-level objective optimization framework for trajectory generation, where the upper-level optimization predicts waypoints for base movement to enhance the manipulator policy space, and the lower-level optimization selects the optimal end-effector trajectory to complete the manipulation task. In this way, MoManipVLA can adjust the position of the robot base in a zero-shot manner, thus making the waypoints predicted from the fixed-base VLA models feasible. Extensive experimental results on OVMM and the real world demonstrate that MoManipVLA achieves a 4.2% higher success rate than the state-of-the-art mobile manipulation, and only requires 50 training cost for real world deployment due to the strong generalization ability in the pre-trained VLA models.

arxiv情報

著者 Zhenyu Wu,Yuheng Zhou,Xiuwei Xu,Ziwei Wang,Haibin Yan
発行日 2025-03-17 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation はコメントを受け付けていません

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

要約

多様なロボットデータセットでトレーニングされた最近のビジョン言語アクションモデルは、限られた領域内データを持つ有望な一般化機能を示しますが、コンパクトなアクションヘッドへの依存は、離散化または連続的なアクションが不均一なアクション空間への適応性を制約します。
統一されたマルチモーダル拡散プロセスを介して、変圧器アーキテクチャを活用して連続的なアクションシーケンスを直接除去するスケーラブルなフレームワークであるDITAを提示します。
DITAは、浅いネットワークを介して融合した埋め込みを除去する以前の方法から出発し、コンテキスト内の条件付けを採用します。歴史的観察からの除去されたアクションと生の視覚トークンとの間の細かい整列を可能にします。
この設計は、アクションデルタと環境ニュアンスを明示的にモデル化します。
Transformerのスケーラビリティとともに拡散アクション除去機をスケーリングすることにより、DITAは多様なカメラの視点、観察シーン、タスク、およびアクションスペースに横断的なデータセットを効果的に統合します。
このような相乗効果は、さまざまな分散に対する堅牢性を高め、長老タスクの実行の成功を促進します。
大規模なベンチマーク全体の評価は、シミュレーションにおける最先端または比較パフォーマンスを示しています。
特に、DITAは、サードパーソンカメラの入力のみを使用して、10ショットのFinetuningを通じて、環境変動と複雑な長距離タスクに対する堅牢な現実世界の適応を実現します。
このアーキテクチャは、ジェネラリストのロボット政策学習のための多目的で軽量でオープンソースのベースラインを確立しています。
プロジェクトページ:https://robodita.github.io/

要約(オリジナル)

While recent vision-language-action models trained on diverse robot datasets exhibit promising generalization capabilities with limited in-domain data, their reliance on compact action heads to predict discretized or continuous actions constrains adaptability to heterogeneous action spaces. We present Dita, a scalable framework that leverages Transformer architectures to directly denoise continuous action sequences through a unified multimodal diffusion process. Departing from prior methods that condition denoising on fused embeddings via shallow networks, Dita employs in-context conditioning — enabling fine-grained alignment between denoised actions and raw visual tokens from historical observations. This design explicitly models action deltas and environmental nuances. By scaling the diffusion action denoiser alongside the Transformer’s scalability, Dita effectively integrates cross-embodiment datasets across diverse camera perspectives, observation scenes, tasks, and action spaces. Such synergy enhances robustness against various variances and facilitates the successful execution of long-horizon tasks. Evaluations across extensive benchmarks demonstrate state-of-the-art or comparative performance in simulation. Notably, Dita achieves robust real-world adaptation to environmental variances and complex long-horizon tasks through 10-shot finetuning, using only third-person camera inputs. The architecture establishes a versatile, lightweight and open-source baseline for generalist robot policy learning. Project Page: https://robodita.github.io/

arxiv情報

著者 Zhi Hou,Tianyi Zhang,Yuwen Xiong,Haonan Duan,Hengjun Pu,Ronglei Tong,Chengyang Zhao,Xizhou Zhu,Yu Qiao,Jifeng Dai,Yuntao Chen
発行日 2025-03-17 11:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy はコメントを受け付けていません

Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions

要約

微分可能なレンダリングは、ロボット工学の分野で大きな注目を集めており、微分可能なロボットレンダリングは、画像空間監督からロボットアクションを学習するための効果的なパラダイムとして浮上しています。
ただし、このアプローチにおける物理的な世界認識の欠如は、アクションの最適化中の潜在的な衝突につながる可能性があります。
この作業では、神経ロボット衝突分類器の学習を通じて衝突の物理的認識を組み込むことにより、以前の取り組みに関する新しい改善を紹介します。
これにより、ロボット自体だけでなく、静的で相互作用しない環境との衝突を回避するアクションの最適化が可能になります。
分類器による効果的な勾配の最適化を促進するために、根本的な問題を特定し、最適化のための一貫した勾配を確保するためにエイコナルの正則化を活用することを提案します。
当社のソリューションは、既存の微分可能なロボットレンダリングフレームワークにシームレスに統合でき、最適化のためにグラデーションを利用し、物理世界との相互作用の信頼性を向上させ、ロボット工学における微分可能なレンダリングの将来のアプリケーションの基盤を提供することができます。
定性的実験と定量的実験の両方が、以前のソリューションと比較して、私たちの方法の必要性と有効性を示しています。

要約(オリジナル)

Differentiable rendering has gained significant attention in the field of robotics, with differentiable robot rendering emerging as an effective paradigm for learning robotic actions from image-space supervision. However, the lack of physical world perception in this approach may lead to potential collisions during action optimization. In this work, we introduce a novel improvement on previous efforts by incorporating physical awareness of collisions through the learning of a neural robotic collision classifier. This enables the optimization of actions that avoid collisions with static, non-interactable environments as well as the robot itself. To facilitate effective gradient optimization with the classifier, we identify the underlying issue and propose leveraging Eikonal regularization to ensure consistent gradients for optimization. Our solution can be seamlessly integrated into existing differentiable robot rendering frameworks, utilizing gradients for optimization and providing a foundation for future applications of differentiable rendering in robotics with improved reliability of interactions with the physical world. Both qualitative and quantitative experiments demonstrate the necessity and effectiveness of our method compared to previous solutions.

arxiv情報

著者 Quanyuan Ruan,Jiabao Lei,Wenhao Yuan,Yanglin Zhang,Dekun Lu,Guiliang Liu,Kui Jia
発行日 2025-03-17 09:17:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions はコメントを受け付けていません

COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation

要約

細胞インスタンスセグメンテーション(CIS)は、組織病理学的画像の個々の細胞形態を特定するために重要であり、生物学的および医学的研究の貴重な洞察を提供します。
監視されていないCIS(UCIS)モデルは、労働集約型の画像注釈への依存度を低下させることを目的としていますが、セルの境界を正確にキャプチャすることができず、検出を見逃し、パフォーマンスの低下を引き起こします。
エラーのないインスタンスが存在しないことを重要な制限として認識して、コイン(信頼性スコアガイド付きインスタンス蒸留)、3つの重要なステップを備えた新しい注釈なしフレームワークを提示します。
洗練されたマスクと非常に自信のあるインスタンスを特定し、グラウンドトゥルースアノテーションに代わるものを提供し、(3)再帰的な自己抵抗との自信の漸進的な拡大を提供します。
6つのデータセットにわたる広範な実験では、既存のUCISメソッドを上回るコインが示されており、MonusegおよびTNBCデータセットのすべてのメトリックにわたって半監視されたアプローチを上回っています。
このコードは、https://github.com/shjo-april/coinで入手できます。

要約(オリジナル)

Cell instance segmentation (CIS) is crucial for identifying individual cell morphologies in histopathological images, providing valuable insights for biological and medical research. While unsupervised CIS (UCIS) models aim to reduce the heavy reliance on labor-intensive image annotations, they fail to accurately capture cell boundaries, causing missed detections and poor performance. Recognizing the absence of error-free instances as a key limitation, we present COIN (COnfidence score-guided INstance distillation), a novel annotation-free framework with three key steps: (1) Increasing the sensitivity for the presence of error-free instances via unsupervised semantic segmentation with optimal transport, leveraging its ability to discriminate spatially minor instances, (2) Instance-level confidence scoring to measure the consistency between model prediction and refined mask and identify highly confident instances, offering an alternative to ground truth annotations, and (3) Progressive expansion of confidence with recursive self-distillation. Extensive experiments across six datasets show COIN outperforming existing UCIS methods, even surpassing semi- and weakly-supervised approaches across all metrics on the MoNuSeg and TNBC datasets. The code is available at https://github.com/shjo-april/COIN.

arxiv情報

著者 Sanghyun Jo,Seo Jin Lee,Seungwoo Lee,Seohyung Hong,Hyungseok Seo,Kyungsu Kim
発行日 2025-03-17 01:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation はコメントを受け付けていません

Robotic Sim-to-Real Transfer for Long-Horizon Pick-and-Place Tasks in the Robotic Sim2Real Competition

要約

このペーパーでは、複数の障害物を持つ環境でのナビゲーション、認識、把握、積み重ねを含む複雑な長期タスクでSIMからリアルへの転送を実行する完全に自律的なロボットシステムを紹介します。
システムの重要な特徴は、SIMからリアルへの転送中に典型的なセンシングと作動の不一致を克服し、アルゴリズムの変更なしで一貫したパフォーマンスを達成する能力です。
これを達成するために、軽量のノイズ耐性視覚認識システムと非線形性の堅牢なサーボシステムが採用されています。
シミュレートされた環境と実世界の両方の環境で一連のテストを実施します。
視覚認識システムは、その軽量性のためにフレームあたり11ミリ秒の速度を達成し、サーボシステムは提案されたコントローラーでサブセンチメートルの精度を達成します。
両方とも、SIMからリアルへの転送中に高い一貫性を示します。
これらの恩恵を受けて、私たちのロボットシステムは、ICRA 2024でホストされているロボットSIM2REALチャレンジのミネラル検索タスクで1位になりました。

要約(オリジナル)

This paper presents a fully autonomous robotic system that performs sim-to-real transfer in complex long-horizon tasks involving navigation, recognition, grasping, and stacking in an environment with multiple obstacles. The key feature of the system is the ability to overcome typical sensing and actuation discrepancies during sim-to-real transfer and to achieve consistent performance without any algorithmic modifications. To accomplish this, a lightweight noise-resistant visual perception system and a nonlinearity-robust servo system are adopted. We conduct a series of tests in both simulated and real-world environments. The visual perception system achieves the speed of 11 ms per frame due to its lightweight nature, and the servo system achieves sub-centimeter accuracy with the proposed controller. Both exhibit high consistency during sim-to-real transfer. Benefiting from these, our robotic system took first place in the mineral searching task of the Robotic Sim2Real Challenge hosted at ICRA 2024.

arxiv情報

著者 Ming Yang,Hongyu Cao,Lixuan Zhao,Chenrui Zhang,Yaran Chen
発行日 2025-03-14 02:16:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robotic Sim-to-Real Transfer for Long-Horizon Pick-and-Place Tasks in the Robotic Sim2Real Competition はコメントを受け付けていません

Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching

要約

正確なロボットのローカリゼーションは、効果的な操作に不可欠です。
モンテカルロローカリゼーション(MCL)は、一般的に既知のマップで使用されますが、各粒子のランドマークマッチングにより計算高価です。
ヒューマノイドロボットは、運動振動によるセンサーノイズや、カメラの配置による限られた視野(FOV)などの追加の課題に直面しています。
このペーパーでは、ヒューマノイドロボットの反復ランドマークマッチング(ILM)を介して高速で堅牢なローカリゼーション方法を提案します。
反復マッチングプロセスは、ランドマーク協会の精度を改善して、ランドマークを粒子に一致させるためにMCLを必要としないようにします。
外れ値の除去プロセスを使用して推定されると、測定ノイズと故障した検出に対する堅牢性が向上します。
さらに、追加のフィルターを使用して、慣性測定ユニット(IMU)から慣性データを融合し、ローカリゼーションからデータを提起できます。
ILMを反復的な最も近いポイント(ICP)と比較しました。これは、ILMメソッドが最初の推測のエラーに対してより堅牢であり、正しいマッチングを取得するのが簡単であることを示しています。
また、ILMを拡張モンテカルロ局在(AMCL)と比較しました。これは、ILMメソッドがAMCLよりもはるかに速く、さらに正確であることを示しています。
提案された方法の有効性は、実験を通じて徹底的に評価され、Robocup 2024アダルトサイズのサッカー競技中にヒューマノイドロボットArtemisで検証されます。

要約(オリジナル)

Accurate robot localization is essential for effective operation. Monte Carlo Localization (MCL) is commonly used with known maps but is computationally expensive due to landmark matching for each particle. Humanoid robots face additional challenges, including sensor noise from locomotion vibrations and a limited field of view (FOV) due to camera placement. This paper proposes a fast and robust localization method via iterative landmark matching (ILM) for humanoid robots. The iterative matching process improves the accuracy of the landmark association so that it does not need MCL to match landmarks to particles. Pose estimation with the outlier removal process enhances its robustness to measurement noise and faulty detections. Furthermore, an additional filter can be utilized to fuse inertial data from the inertial measurement unit (IMU) and pose data from localization. We compared ILM with Iterative Closest Point (ICP), which shows that ILM method is more robust towards the error in the initial guess and easier to get a correct matching. We also compared ILM with the Augmented Monte Carlo Localization (aMCL), which shows that ILM method is much faster than aMCL and even more accurate. The proposed method’s effectiveness is thoroughly evaluated through experiments and validated on the humanoid robot ARTEMIS during RoboCup 2024 adult-sized soccer competition.

arxiv情報

著者 Ruochen Hou,Mingzhang Zhu,Hyunwoo Nam,Gabriel I. Fernandez,Dennis W. Hong
発行日 2025-03-14 02:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching はコメントを受け付けていません

Enhancing Adaptivity of Two-Fingered Object Reorientation Using Tactile-based Online Optimization of Deconstructed Actions

要約

オブジェクトの再配向は、特に制約された環境内でオブジェクトを操作する場合、ロボットグリッパーにとって重要なタスクです。
このタスクは、不明なオブジェクトプロパティや非線形接触力を含む複雑な入力情報を使用した高次元出力アクションにより、モーション計画に大きな課題をもたらします。
従来のアプローチは、自由度を減らしたり、連絡先フォームを制限したり、環境/オブジェクト情報を事前に取得したりすることで問題を簡素化します。これにより、適応性が大幅に低下します。
これらの課題に対処するために、複雑な出力アクションを触覚センシング、タスク指向アクション、制約指向アクション、および調整アクションの3つの基本タイプに分解します。
これらのアクションは、勾配最適化を使用してオンラインで最適化され、適応性が向上します。
重要な貢献には、接触状態の認識の簡素化、複雑なグリッパーアクションの分解、未知のオブジェクトまたは環境制約を処理するためのオンラインアクションの最適化が可能になります。
実験結果は、提案された方法が環境接触に関係なく、さまざまな日常のオブジェクトにわたって効果的であることを示しています。
さらに、この方法は、不明な接触と非線形外乱が存在する場合でも、堅牢なパフォーマンスを示します。

要約(オリジナル)

Object reorientation is a critical task for robotic grippers, especially when manipulating objects within constrained environments. The task poses significant challenges for motion planning due to the high-dimensional output actions with the complex input information, including unknown object properties and nonlinear contact forces. Traditional approaches simplify the problem by reducing degrees of freedom, limiting contact forms, or acquiring environment/object information in advance, which significantly compromises adaptability. To address these challenges, we deconstruct the complex output actions into three fundamental types based on tactile sensing: task-oriented actions, constraint-oriented actions, and coordinating actions. These actions are then optimized online using gradient optimization to enhance adaptability. Key contributions include simplifying contact state perception, decomposing complex gripper actions, and enabling online action optimization for handling unknown objects or environmental constraints. Experimental results demonstrate that the proposed method is effective across a range of everyday objects, regardless of environmental contact. Additionally, the method exhibits robust performance even in the presence of unknown contacts and nonlinear external disturbances.

arxiv情報

著者 Qiyin Huang,Tiemin Li,Yao Jiang
発行日 2025-03-14 03:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Enhancing Adaptivity of Two-Fingered Object Reorientation Using Tactile-based Online Optimization of Deconstructed Actions はコメントを受け付けていません

Distributed Multi-robot Source Seeking in Unknown Environments with Unknown Number of Sources

要約

ソースの数が不明であり、ロボットの数を超える潜在的なシナリオでマルチロボットシステム用に設計された新しい分散型ソースシークフレームワークDIASを導入します。
通常、各ロボットを特定の強力なソースに誘導することに焦点を当てた従来のロボットソース探索方法は、すべての潜在的なソースを包括的に識別することに不足する可能性があります。
DIASは、ソースの存在を識別するハイブリッドコントローラーを導入し、データ収集の探索と特定されたソースへのガイドロボットの搾取を交互に導入することにより、このギャップに対処します。
さらに、環境をボロノイ細胞に分割し、ガウスプロセス回帰に基づいてソース密度関数に近似することにより、検索効率を高めます。
さらに、DIAは既存のソースシークアルゴリズムと統合できます。
DIAを既存のアルゴリズムと比較します。これには、ソースの数が上回るか、ロボットの数に等しいシミュレートされたガス漏れシナリオのDOSSやGMEを含みます。
数値結果は、DIASがロボットによるソース識別の効率と推定環境密度関数の精度の両方のベースラインメソッドを上回ることを示しています。

要約(オリジナル)

We introduce a novel distributed source seeking framework, DIAS, designed for multi-robot systems in scenarios where the number of sources is unknown and potentially exceeds the number of robots. Traditional robotic source seeking methods typically focused on directing each robot to a specific strong source and may fall short in comprehensively identifying all potential sources. DIAS addresses this gap by introducing a hybrid controller that identifies the presence of sources and then alternates between exploration for data gathering and exploitation for guiding robots to identified sources. It further enhances search efficiency by dividing the environment into Voronoi cells and approximating source density functions based on Gaussian process regression. Additionally, DIAS can be integrated with existing source seeking algorithms. We compare DIAS with existing algorithms, including DoSS and GMES in simulated gas leakage scenarios where the number of sources outnumbers or is equal to the number of robots. The numerical results show that DIAS outperforms the baseline methods in both the efficiency of source identification by the robots and the accuracy of the estimated environmental density function.

arxiv情報

著者 Lingpeng Chen,Siva Kailas,Srujan Deolasee,Wenhao Luo,Katia Sycara,Woojun Kim
発行日 2025-03-14 03:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Distributed Multi-robot Source Seeking in Unknown Environments with Unknown Number of Sources はコメントを受け付けていません

Fish Mouth Inspired Origami Gripper for Robust Multi-Type Underwater Grasping

要約

水中環境でのロボットの把握と操作は、伝統的に陸地で使用されていたロボットの手にユニークな課題を提示します。
これらの課題は、動的な水の条件、柔らかいものから硬い不規則なオブジェクト形状、さまざまな表面摩擦までの幅広いオブジェクト特性に由来しています。
一般的なアプローチの1つは、不足およびソフトアクチュエーターを使用して、埋め込まれたコンプライアンスで指ベースの手を開発することです。
この研究では、指ベースのハンドデザインに依存しない効果的な代替ソリューションを紹介します。
魚の口に触発された折り紙グリッパーを紹介します。これは、水中でさまざまな堅牢な把握タスクを実行するために単一の自由度を利用しています。
革新的な構造は、ヨシムラの折り目パターンの折りたたみに基づいて、単純な一軸引っ張り動きを把握作用に変換します。
折り紙グリッパーは、スケーラブルで最適化可能なデザイン、握り、コンプライアンス、堅牢性を含む、ピンチ、パワーグラス、複数のオブジェクトの同時把握、海底からのスクープなど、明確な利点を提供します。
この作業では、クラゲ、カニ、アワビなどのさまざまな海洋生物を処理できる専門の水中グリッパーの設計、モデリング、製造、および検証について詳しく説明します。
折り紙とバイオに触発されたアプローチを活用することにより、提示されたグリッパーは、水中環境でのロボット把持と操作の可能性を有望であることを示しています。

要約(オリジナル)

Robotic grasping and manipulation in underwater environments present unique challenges for robotic hands traditionally used on land. These challenges stem from dynamic water conditions, a wide range of object properties from soft to stiff, irregular object shapes, and varying surface frictions. One common approach involves developing finger-based hands with embedded compliance using underactuation and soft actuators. This study introduces an effective alternative solution that does not rely on finger-based hand designs. We present a fish mouth inspired origami gripper that utilizes a single degree of freedom to perform a variety of robust grasping tasks underwater. The innovative structure transforms a simple uniaxial pulling motion into a grasping action based on the Yoshimura crease pattern folding. The origami gripper offers distinct advantages, including scalable and optimizable design, grasping compliance, and robustness, with four grasping types: pinch, power grasp, simultaneous grasping of multiple objects, and scooping from the seabed. In this work, we detail the design, modeling, fabrication, and validation of a specialized underwater gripper capable of handling various marine creatures, including jellyfish, crabs, and abalone. By leveraging an origami and bio-inspired approach, the presented gripper demonstrates promising potential for robotic grasping and manipulation in underwater environments.

arxiv情報

著者 Honghao Guo,Junda Huang,Ian Zhang,Boyuan Liang,Xin Ma,Yunhui Liu,Jianshu Zhou
発行日 2025-03-14 03:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fish Mouth Inspired Origami Gripper for Robust Multi-Type Underwater Grasping はコメントを受け付けていません

UGotMe: An Embodied System for Affective Human-Robot Interaction

要約

ヒューマノイドロボットに、人間の相互作用者の感情状態を理解し、感情を適切に表現する能力を装備し、状況に応じて適切に表現することは、感情的な人間とロボットの相互作用に不可欠です。
ただし、現実世界での感情的な人間とロボットの相互作用の現在の視覚認識マルチモーダル感情認識モデルを可能にすることは、環境ノイズの問題に対処し、リアルタイムの要件を満たすことを具体化する課題を引き起こします。
第一に、マルチパーティの会話シナリオでは、ロボットの視覚的観察に継承されたノイズは、1)シーンの気を散らすオブジェクトまたは2)ロボットの視野に現れる非アクティブなスピーカーから生じる可能性があり、モデルが視覚入力から感情的なキューを抽出するのを妨げます。
第二に、インタラクティブシステムの望ましい機能であるリアルタイムの応答も、達成するのが難しいです。
両方の課題に取り組むために、マルチパーティの会話のために特別に設計されたUGOTMEと呼ばれる感情的なヒトロボット相互作用システムを導入します。
2つの除去戦略が提案され、最初の問題を解決するためにシステムに組み込まれます。
具体的には、シーン内の気を散らすオブジェクトを除外するために、生の画像からスピーカーの顔の画像を抽出することを提案し、非アクティブなスピーカーを除外するためのカスタマイズされたアクティブなフェイス抽出戦略を導入します。
2番目の問題に関しては、ロボットからローカルサーバーへの効率的なデータ送信を使用して、リアルタイムの応答機能を改善します。
AMECAという名前の人間のロボットにUGOTMEを展開して、実際のシナリオでリアルタイムの推論機能を検証します。
現実世界の展開を示すビデオは、https://pi3-141592653.github.io/ugotme/で入手できます。

要約(オリジナル)

Equipping humanoid robots with the capability to understand emotional states of human interactants and express emotions appropriately according to situations is essential for affective human-robot interaction. However, enabling current vision-aware multimodal emotion recognition models for affective human-robot interaction in the real-world raises embodiment challenges: addressing the environmental noise issue and meeting real-time requirements. First, in multiparty conversation scenarios, the noises inherited in the visual observation of the robot, which may come from either 1) distracting objects in the scene or 2) inactive speakers appearing in the field of view of the robot, hinder the models from extracting emotional cues from vision inputs. Secondly, realtime response, a desired feature for an interactive system, is also challenging to achieve. To tackle both challenges, we introduce an affective human-robot interaction system called UGotMe designed specifically for multiparty conversations. Two denoising strategies are proposed and incorporated into the system to solve the first issue. Specifically, to filter out distracting objects in the scene, we propose extracting face images of the speakers from the raw images and introduce a customized active face extraction strategy to rule out inactive speakers. As for the second issue, we employ efficient data transmission from the robot to the local server to improve realtime response capability. We deploy UGotMe on a human robot named Ameca to validate its real-time inference capabilities in practical scenarios. Videos demonstrating real-world deployment are available at https://pi3-141592653.github.io/UGotMe/.

arxiv情報

著者 Peizhen Li,Longbing Cao,Xiao-Ming Wu,Xiaohan Yu,Runze Yang
発行日 2025-03-14 03:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | UGotMe: An Embodied System for Affective Human-Robot Interaction はコメントを受け付けていません