Safe Expeditious Whole-Body Control of Mobile Manipulators for Collision Avoidance

要約

モバイルマニピュレーター(MMS)の制御タスクでは、動的環境で効率的で機敏な障害物の回避を達成することは困難です。
この手紙では、MMSの安全な迅速な全身(SEWB)コントロールを提示し、外部と内部の両方の衝突がないことを保証します。
まず、制御バリア関数(CBFS)がMMに使用され、初期の安全性の制約を確立します。
さらに、CBFSの擬似平衡問題を解決し、回避の俊敏性を向上させるために、適応循環不等式(ACI)と呼ばれる新しいアプローチを提案します。
ACIは、MMの方向的な制約を生成するための障害、名目制御を包括的に考慮します。
次に、CBFとACIを組み合わせて安全性の制約を分解します。
これらすべての制約を考慮して、主要な最適化として第2次プログラミング(QP)を策定します。
QPコスト関数では、ベースとマニピュレーターの運動精度の違い、および障害物の影響を説明して、全身の動きを同時に達成します。
特に、速い障害を含む挑戦的なシナリオで、シミュレーションと現実世界の実験を通じて衝突を回避し、ターゲットポイントに到達する際に、SEWBコントロールの有効性を検証します。
SEWBは、全身の衝突のない衝突を達成し、回避の俊敏性を向上させることが証明されています。

要約(オリジナル)

In the control task of mobile manipulators (MMs), achieving efficient and agile obstacle avoidance in dynamic environments is challenging. In this letter, we present a safe expeditious whole-body (SEWB) control for MMs that ensures both external and internal collision-free. Firstly, control barrier functions (CBFs) are employed for an MM to establish initial safety constraints. Moreover, to resolve the pseudo-equilibrium problem of CBFs and improve avoidance agility, we propose a novel approach called adaptive cyclic inequality (ACI). ACI comprehensively considers obstacles, nominal control to generate directional constraints for MM. Then, we combine CBF and ACI to decompose safety constraints. Considering all these constraints, we formulate a quadratic programming (QP) as our primary optimization. In the QP cost function, we account for the motion accuracy differences between the base and manipulator, as well as obstacle influences, to achieve simultaneous whole-body motion. We validate the effectiveness of our SEWB control in avoiding collision and reaching target points through simulations and real-world experiments, particularly in challenging scenarios that involve fast-moving obstacles. SEWB has been proven to achieve whole-body collision-free and improve avoidance agility.

arxiv情報

著者 Bingjie Chen,Yancong Wei,Rihao Liu,Houde Liu,Chongkun Xia,Liang Han,Bin Liang
発行日 2025-03-18 02:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Safe Expeditious Whole-Body Control of Mobile Manipulators for Collision Avoidance はコメントを受け付けていません

RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification

要約

このホワイトペーパーでは、RFUAVを無線周波ベース(RFベース)無人航空機(UAV)の識別のための新しいベンチマークデータセットとして提案し、次の課題に対処します。最初に、多くの既存のデータセットは、制限された多様なドローンタイプと、実際の応用の要求を満たすことができない生データの量が制限されています。
第二に、既存のデータセットには、広範囲の信号対雑音比(SNR)をカバーする生データが欠けていることが多い、またはRAWデータを異なるSNRレベルに変換するためのツールを提供しません。
この制限は、モデルトレーニングと評価の妥当性を損ないます。
最後に、多くの既存のデータセットはオープンアクセス評価ツールを提供しておらず、この分野での現在の研究で統一された評価基準が不足しています。
RFUAVは、実際の環境でユニバーサルソフトウェアラジオ周辺(USRP)デバイスを使用して、37個の異なるUAVから収集された約1.3 Tbの生の周波数データで構成されています。
RFUAVのRFデータの詳細な分析により、ドローン信号を区別するのに役立つRFドローンフィンガープリントと呼ばれるドローン機能シーケンスを定義します。
データセットに加えて、RFUAVはベースライン前処理方法とモデル評価ツールを提供します。
厳密な実験は、これらの前処理方法が提供された評価ツールを使用して最先端(SOTA)パフォーマンスを実現することを示しています。
RFUAVデータセットとベースラインの実装は、https://github.com/kitoweeknd/rfuav/で公開されています。

要約(オリジナル)

In this paper, we propose RFUAV as a new benchmark dataset for radio-frequency based (RF-based) unmanned aerial vehicle (UAV) identification and address the following challenges: Firstly, many existing datasets feature a restricted variety of drone types and insufficient volumes of raw data, which fail to meet the demands of practical applications. Secondly, existing datasets often lack raw data covering a broad range of signal-to-noise ratios (SNR), or do not provide tools for transforming raw data to different SNR levels. This limitation undermines the validity of model training and evaluation. Lastly, many existing datasets do not offer open-access evaluation tools, leading to a lack of unified evaluation standards in current research within this field. RFUAV comprises approximately 1.3 TB of raw frequency data collected from 37 distinct UAVs using the Universal Software Radio Peripheral (USRP) device in real-world environments. Through in-depth analysis of the RF data in RFUAV, we define a drone feature sequence called RF drone fingerprint, which aids in distinguishing drone signals. In addition to the dataset, RFUAV provides a baseline preprocessing method and model evaluation tools. Rigorous experiments demonstrate that these preprocessing methods achieve state-of-the-art (SOTA) performance using the provided evaluation tools. The RFUAV dataset and baseline implementation are publicly available at https://github.com/kitoweeknd/RFUAV/.

arxiv情報

著者 Rui Shi,Xiaodong Yu,Shengming Wang,Yijia Zhang,Lu Xu,Peng Pan,Chunlai Ma
発行日 2025-03-18 03:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification はコメントを受け付けていません

Fast Iterative Region Inflation for Computing Large 2-D/3-D Convex Regions of Obstacle-Free Space

要約

凸ポリトープにはコンパクトな表現があり、凸性を示し、さまざまな環境から障害物のない空間を抽象化するのに適しています。
既存の生成方法は、高品質の出力と効率のバランスをとることに苦労しています。
さらに、凸ポリトープがロボットやフロントエンドパスなどの特定のシードポイントセットを正確に含めるためのもう1つの重要な要件は、さまざまなタスクで提案されており、これを管理可能性と呼びます。
この論文では、効率と管理性を同時に確保しながら、高品質の凸ポリトープを生成するための高速反復地域インフレ(FIRI)を提案します。
FIRIは、2つの繰り返し実行されたサブモジュールで構成されています:制限インフレ(RSI)と最大体積刻まれた楕円体(MVIE)計算。
シードポイントセットを含む制約を明示的に組み込むことにより、RSIは管理性を保証します。
一方、反復的なMVIE最適化により、単調なボリュームバウンド改善を通じて高品質の結果が保証されます。効率の条件では、両方のモジュールの低次元的で複数の制約の性質に合わせて調整され、ジェネリックソルバーと比較して数桁改善されます。
特に、2-D MVIEでは、最大領域に刻まれた楕円の最初の線形複雑度分析アルゴリズムを提示し、2Dケースでパフォーマンスをさらに向上させます。
最先端の方法に対して実施される広範なベンチマークは、品質、管理性、効率の観点からFIRIの優れた性能を検証します。
さらに、さまざまな現実世界のアプリケーションがFIRIの一般性と実用性を示しています。

要約(オリジナル)

Convex polytopes have compact representations and exhibit convexity, which makes them suitable for abstracting obstacle-free spaces from various environments. Existing generation methods struggle with balancing high-quality output and efficiency. Moreover, another crucial requirement for convex polytopes to accurately contain certain seed point sets, such as a robot or a front-end path, is proposed in various tasks, which we refer to as manageability. In this paper, we propose Fast Iterative Regional Inflation (FIRI) to generate high-quality convex polytope while ensuring efficiency and manageability simultaneously. FIRI consists of two iteratively executed submodules: Restrictive Inflation (RsI) and Maximum Volume Inscribed Ellipsoid (MVIE) computation. By explicitly incorporating constraints that include the seed point set, RsI guarantees manageability. Meanwhile, iterative MVIE optimization ensures high-quality result through monotonic volume bound improvement.In terms of efficiency, we design methods tailored to the low-dimensional and multi-constrained nature of both modules, resulting in orders of magnitude improvement compared to generic solvers. Notably, in 2-D MVIE, we present the first linear-complexity analytical algorithm for maximum area inscribed ellipse, further enhancing the performance in 2-D cases. Extensive benchmarks conducted against state-of-the-art methods validate the superior performance of FIRI in terms of quality, manageability, and efficiency. Furthermore, various real-world applications showcase the generality and practicality of FIRI.

arxiv情報

著者 Qianhao Wang,Zhepei Wang,Mingyang Wang,Jialin Ji,Zhichao Han,Tianyue Wu,Rui Jin,Yuman Gao,Chao Xu,Fei Gao
発行日 2025-03-18 04:19:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fast Iterative Region Inflation for Computing Large 2-D/3-D Convex Regions of Obstacle-Free Space はコメントを受け付けていません

NormalFlow: Fast, Robust, and Accurate Contact-based Object 6DoF Pose Tracking with Vision-based Tactile Sensors

要約

触覚センシングは、人間レベルの器用さを達成することを目指しているロボットにとって重要です。
触覚依存のスキルの中で、触覚ベースのオブジェクト追跡は、操作、手の操作、3D再建など、多くのタスクの基礎として機能します。
この作業では、迅速で堅牢でリアルタイムの触覚ベースの6DOF追跡アルゴリズムであるNormalFlowを紹介します。
視力ベースの触覚センサーの正確な通常の推定を活用すると、触覚由来の表面正常間の矛盾を最小限に抑えることにより、通常の流れがオブジェクトの動きを決定します。
私たちの結果は、NormalFlowが一貫して競争力のあるベースラインを上回り、テーブルサーフェスのような低テクスチャオブジェクトを追跡できることを示しています。
長距離追跡のために、センサーをビーズの周りに360度回転させるときに、NormalFlowは2.5度の回転追跡誤差を維持します。
さらに、最先端の触覚ベースの3D再建結果を提示し、通常のフローの高精度を紹介します。
通常のフローは、手を使用してオブジェクトとの対話を伴う高精度の知覚と操作タスクの新しい可能性のロックを解除すると考えています。
ビデオデモ、コード、およびデータセットは、当社のWebサイトhttps://joehjhuang.github.io/normalflowで入手できます。

要約(オリジナル)

Tactile sensing is crucial for robots aiming to achieve human-level dexterity. Among tactile-dependent skills, tactile-based object tracking serves as the cornerstone for many tasks, including manipulation, in-hand manipulation, and 3D reconstruction. In this work, we introduce NormalFlow, a fast, robust, and real-time tactile-based 6DoF tracking algorithm. Leveraging the precise surface normal estimation of vision-based tactile sensors, NormalFlow determines object movements by minimizing discrepancies between the tactile-derived surface normals. Our results show that NormalFlow consistently outperforms competitive baselines and can track low-texture objects like table surfaces. For long-horizon tracking, we demonstrate when rolling the sensor around a bead for 360 degrees, NormalFlow maintains a rotational tracking error of 2.5 degrees. Additionally, we present state-of-the-art tactile-based 3D reconstruction results, showcasing the high accuracy of NormalFlow. We believe NormalFlow unlocks new possibilities for high-precision perception and manipulation tasks that involve interacting with objects using hands. The video demo, code, and dataset are available on our website: https://joehjhuang.github.io/normalflow.

arxiv情報

著者 Hung-Jui Huang,Michael Kaess,Wenzhen Yuan
発行日 2025-03-18 04:31:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | NormalFlow: Fast, Robust, and Accurate Contact-based Object 6DoF Pose Tracking with Vision-based Tactile Sensors はコメントを受け付けていません

Evaluating Global Geo-alignment for Precision Learned Autonomous Vehicle Localization using Aerial Data

要約

最近、主に大幅なコスト削減とスケーラビリティの向上の可能性があるため、自動運転車用の空中および衛星マップデータの使用に関心が高まっています。
利点にもかかわらず、空中データには、センサーモダリティギャップや視点差ギャップなどの課題も伴います。
学習したローカリゼーション方法は、これらの課題を克服するための有望であり、自律車両に正確なメトリックローカリゼーションを提供しています。
ほとんどの学習されたローカリゼーション方法は、粗く整列した地上真理、またはローカリゼーションタスクを学ぶための暗黙の一貫性ベースの方法に依存していますが、このホワイトペーパーでは、トレーニング時に航空データと自律車両センサーデータのアライメントを改善することは、学習ベースのローカリゼーションシステムのパフォーマンスに重要であることがわかります。
因子グラフフレームワークを使用して2つのデータアラインメントメソッドを比較し、これらの方法を使用して、アブレーション研究を通じて学習されたローカリゼーションの精度に対する密接に整列した真理の効果を評価します。
最後に、包括的な(1600km)自律車データセットのデータアライメントメソッドを使用して学習ローカリゼーションシステムを評価し、自律車両アプリケーションに十分な0.3mおよび0.5 $^{\ circ} $未満のローカリゼーションエラーを実証します。

要約(オリジナル)

Recently there has been growing interest in the use of aerial and satellite map data for autonomous vehicles, primarily due to its potential for significant cost reduction and enhanced scalability. Despite the advantages, aerial data also comes with challenges such as a sensor-modality gap and a viewpoint difference gap. Learned localization methods have shown promise for overcoming these challenges to provide precise metric localization for autonomous vehicles. Most learned localization methods rely on coarsely aligned ground truth, or implicit consistency-based methods to learn the localization task — however, in this paper we find that improving the alignment between aerial data and autonomous vehicle sensor data at training time is critical to the performance of a learning-based localization system. We compare two data alignment methods using a factor graph framework and, using these methods, we then evaluate the effects of closely aligned ground truth on learned localization accuracy through ablation studies. Finally, we evaluate a learned localization system using the data alignment methods on a comprehensive (1600km) autonomous vehicle dataset and demonstrate localization error below 0.3m and 0.5$^{\circ}$ sufficient for autonomous vehicle applications.

arxiv情報

著者 Yi Yang,Xuran Zhao,H. Charles Zhao,Shumin Yuan,Samuel M. Bateman,Tiffany A. Huang,Chris Beall,Will Maddern
発行日 2025-03-18 04:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.9 | Evaluating Global Geo-alignment for Precision Learned Autonomous Vehicle Localization using Aerial Data はコメントを受け付けていません

Point Cloud Structural Similarity-based Underwater Sonar Loop Detection

要約

このレターでは、ソナーセンサーを使用した水中の同時ローカリゼーションとマッピングのためのポイントクラウド構造類似性ベースのループ検出方法を提案します。
既存のソナーベースのループ検出アプローチは、多くの場合、2Dプロジェクションとキーポイント抽出に依存しており、機能環境でのデータ損失とパフォーマンスの低下につながる可能性があります。
さらに、ニューラルネットワークまたはワードバッグに基づく方法では、モデルトレーニングや語彙の作成など、広範な前処理が必要であり、新しい環境への適応性を低下させます。
これらの課題に対処するために、当社の方法は投影なしで3Dソナーポイントクラウドを直接利用し、ジオメトリ、正規、曲率に基づいてポイントワイズ構造特徴マップを計算します。
回転不変の類似性比較を活用することにより、提案されたアプローチはキーポイント検出の必要性を排除し、多様な水中地形全体で堅牢なループ検出を保証します。
2つの実際のデータセットを使用してメソッドを検証します。深い水中から得られた南極データセットと、川と湖から収集された海側のデータセットです。
実験結果は、既存のキーポイントベースの学習ベースのアプローチと比較して、追加のトレーニングや前処理を必要とせずに、この方法が最高のループ検出パフォーマンスを達成することを示しています。
当社のコードは、https://github.com/donghwijung/point_cloud_structural_similarity_based_underwater_sonar_loop_detectionで入手できます。

要約(オリジナル)

In this letter, we propose a point cloud structural similarity-based loop detection method for underwater Simultaneous Localization and Mapping using sonar sensors. Existing sonar-based loop detection approaches often rely on 2D projection and keypoint extraction, which can lead to data loss and poor performance in feature-scarce environments. Additionally, methods based on neural networks or Bag-of-Words require extensive preprocessing, such as model training or vocabulary creation, reducing adaptability to new environments. To address these challenges, our method directly utilizes 3D sonar point clouds without projection and computes point-wise structural feature maps based on geometry, normals, and curvature. By leveraging rotation-invariant similarity comparisons, the proposed approach eliminates the need for keypoint detection and ensures robust loop detection across diverse underwater terrains. We validate our method using two real-world datasets: the Antarctica dataset obtained from deep underwater and the Seaward dataset collected from rivers and lakes. Experimental results show that our method achieves the highest loop detection performance compared to existing keypointbased and learning-based approaches while requiring no additional training or preprocessing. Our code is available at https://github.com/donghwijung/point_cloud_structural_similarity_based_underwater_sonar_loop_detection.

arxiv情報

著者 Donghwi Jung,Andres Pulido,Jane Shin,Seong-Woo Kim
発行日 2025-03-18 05:07:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Point Cloud Structural Similarity-based Underwater Sonar Loop Detection はコメントを受け付けていません

MERCI: Multimodal Emotional and peRsonal Conversational Interactions Dataset

要約

私たちの日常生活への会話エージェントの統合はますます一般的になっていますが、これらのエージェントの多くは人間との深い相互作用に従事することはできません。
それにもかかわらず、人間とロボットの相互作用の対話からマルチモーダル情報をキャプチャするデータセットの顕著な不足があります。
このギャップに対処するために、豊富な具体化された相互作用データを含む新しいマルチモーダルデータセット(Merci)を記録しました。
このプロセスには、参加者にアンケートに記入し、趣味やお気に入りの音楽などの10のトピックに関するプロファイルを収集するように求めることが含まれていました。
その後、ロボットと参加者の間の会話を開始し、GPT-4を活用して、顔の表現認識と感情分析によって決定されるように、参加者のプロファイルと感情状態に基づいて文脈的に適切な応答を生成しました。
収集されたデータの全体的な品質を評価するために、自動およびユーザー評価が実施されました。
両方の評価の結果は、会話における高レベルの自然性、エンゲージメント、流encyさ、一貫性、および関連性と、共感的な反応を提供するロボットの能力を示しています。
データセットは、個人情報を提供し、実際の感情を伝えた参加者が関与するロボットとの本物の相互作用から派生していることは注目に値します。

要約(オリジナル)

The integration of conversational agents into our daily lives has become increasingly common, yet many of these agents cannot engage in deep interactions with humans. Despite this, there is a noticeable shortage of datasets that capture multimodal information from human-robot interaction dialogues. To address this gap, we have recorded a novel multimodal dataset (MERCI) that encompasses rich embodied interaction data. The process involved asking participants to complete a questionnaire and gathering their profiles on ten topics, such as hobbies and favorite music. Subsequently, we initiated conversations between the robot and the participants, leveraging GPT-4 to generate contextually appropriate responses based on the participant’s profile and emotional state, as determined by facial expression recognition and sentiment analysis. Automatic and user evaluations were conducted to assess the overall quality of the collected data. The results of both evaluations indicated a high level of naturalness, engagement, fluency, consistency, and relevance in the conversation, as well as the robot’s ability to provide empathetic responses. It is worth noting that the dataset is derived from genuine interactions with the robot, involving participants who provided personal information and conveyed actual emotions.

arxiv情報

著者 Mohammed Althubyani,Zhijin Meng,Shengyuan Xie,Cha Seung,Imran Razzak,Eduardo B. Sandoval,Baki Kocaballi,Francisco Cruz
発行日 2025-03-18 05:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.HC, cs.RO, K.4.0 | MERCI: Multimodal Emotional and peRsonal Conversational Interactions Dataset はコメントを受け付けていません

Extending Structural Causal Models for Autonomous Vehicles to Simplify Temporal System Construction & Enable Dynamic Interactions Between Agents

要約

この作業では、自動運転車と因果的推論の間の格差を埋めることを目指しています。
自律型の車両は、人間のドライバーとますます相互作用するようになり、多くの場合、相互作用する人の身体的または精神的な幸福にリスクをもたらす可能性があります。
一方、因果モデルは、固有の透明性と対照的な説明を提供する能力にもかかわらず、そのようなシステム内での使用が限られていることがわかりました。
そのため、最初に、自律車両内の構造因果モデルの統合を制限している課題を特定します。
次に、これらの課題に取り組むために、構造的因果モデル形式に多くの理論的拡張を導入します。
これにより、これらのモデルは、より大きなレベルのモジュール化とカプセル化を備えており、一定の空間の複雑さを伴う時間的因果モデル表現を提示します。
また、動的に可変性のあるセット(たとえば、時間をかけでさまざまな自律車両の数のさまざまな数の自動車)を構造的因果モデル内で使用しながら、因果関係の定常性を維持しながら使用できることを導入した拡張機能を通じて証明します。
最後に、自動運転車およびサービスロボットドメインのコンテキストでの拡張機能の適用と、将来の作業の潜在的な方向について説明します。

要約(オリジナル)

In this work we aim to bridge the divide between autonomous vehicles and causal reasoning. Autonomous vehicles have come to increasingly interact with human drivers, and in many cases may pose risks to the physical or mental well-being of those they interact with. Meanwhile causal models, despite their inherent transparency and ability to offer contrastive explanations, have found limited usage within such systems. As such, we first identify the challenges that have limited the integration of structural causal models within autonomous vehicles. We then introduce a number of theoretical extensions to the structural causal model formalism in order to tackle these challenges. This augments these models to possess greater levels of modularisation and encapsulation, as well presenting temporal causal model representation with constant space complexity. We also prove through the extensions we have introduced that dynamically mutable sets (e.g. varying numbers of autonomous vehicles across time) can be used within a structural causal model while maintaining a relaxed form of causal stationarity. Finally we discuss the application of the extensions in the context of the autonomous vehicle and service robotics domain along with potential directions for future work.

arxiv情報

著者 Rhys Howard,Lars Kunze
発行日 2025-03-18 05:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SE, I.2.9 | Extending Structural Causal Models for Autonomous Vehicles to Simplify Temporal System Construction & Enable Dynamic Interactions Between Agents はコメントを受け付けていません

Project URSULA: Design of a Robotic Squid for Underwater Manipulation

要約

このペーパーでは、器用な水中操作用に開発された生体模倣ロボットイカ(ウルスラと呼ばれる)の設計が提示されます。
このロボットは、ソフトマニピュレーター、プロペラのない推進力、モデル媒介ビデオおよび触覚フィードバック、ソナーベースの水中マッピング、ローカリゼーション、ナビゲーション、および高い帯域幅の可視光通信など、いくつかの新しい水中技術のテストベッドとして機能します。
詳細な設計の最終化に続いて、プロトタイプが製造されており、現在プールテストを受けています。

要約(オリジナル)

With this paper, the design of a biomimetic robotic squid (dubbed URSULA) developed for dexterous underwater manipulation is presented. The robot serves as a test bed for several novel underwater technologies such as soft manipulators, propeller-less propulsion, model mediated tele-operation with video and haptic feedback, sonar-based underwater mapping, localization, and navigation, and high bandwidth visible light communications. Following the finalization of the detailed design, a prototype is manufactured and is currently undergoing pool tests.

arxiv情報

著者 Berke Gur
発行日 2025-03-18 05:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Project URSULA: Design of a Robotic Squid for Underwater Manipulation はコメントを受け付けていません

Learning Bimanual Manipulation via Action Chunking and Inter-Arm Coordination with Transformers

要約

人間の生活環境で自律的に動作できるロボットは、さまざまなタスクを柔軟に処理できるために必要です。
重要な要素の1つは、片手だけで実行するのが難しい関数を可能にする調整された双近の動きです。
近年、双方向の動きの可能性に焦点を当てた学習ベースのモデルが提案されています。
ただし、ロボットの自由度が高くなると、コントロールについて推論することが困難になり、左右のロボットアームは状況に応じてアクションを調整する必要があり、より巧妙なタスクを実現することは困難です。
この問題に対処するために、特に同期したアクションのために、両腕の間の調整と効率に焦点を当てます。
したがって、協力的な行動を予測する新しい模倣学習アーキテクチャを提案します。
両方のアームのアーキテクチャを区別し、中間エンコーダーレイヤー、インターアーム調整されたトランスエンコーダー(IACE)を追加します。これにより、同期と時間的アライメントが容易になり、スムーズで調整されたアクションが確保されます。
アーキテクチャの有効性を検証するために、独特の双方向のタスクを実行します。
実験結果は、私たちのモデルが比較のために高い成功率を実証し、両手操作の政策学習に適したアーキテクチャを示唆したことを示しました。

要約(オリジナル)

Robots that can operate autonomously in a human living environment are necessary to have the ability to handle various tasks flexibly. One crucial element is coordinated bimanual movements that enable functions that are difficult to perform with one hand alone. In recent years, learning-based models that focus on the possibilities of bimanual movements have been proposed. However, the high degree of freedom of the robot makes it challenging to reason about control, and the left and right robot arms need to adjust their actions depending on the situation, making it difficult to realize more dexterous tasks. To address the issue, we focus on coordination and efficiency between both arms, particularly for synchronized actions. Therefore, we propose a novel imitation learning architecture that predicts cooperative actions. We differentiate the architecture for both arms and add an intermediate encoder layer, Inter-Arm Coordinated transformer Encoder (IACE), that facilitates synchronization and temporal alignment to ensure smooth and coordinated actions. To verify the effectiveness of our architectures, we perform distinctive bimanual tasks. The experimental results showed that our model demonstrated a high success rate for comparison and suggested a suitable architecture for the policy learning of bimanual manipulation.

arxiv情報

著者 Tomohiro Motoda,Ryo Hanai,Ryoichi Nakajo,Masaki Murooka,Floris Erich,Yukiyasu Domae
発行日 2025-03-18 05:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Bimanual Manipulation via Action Chunking and Inter-Arm Coordination with Transformers はコメントを受け付けていません