Continual Adaptation for Autonomous Driving with the Mixture of Progressive Experts Network

要約

学習ベースの自律運転には、複雑なトラフィックにおける多様な知識を継続的に統合する必要がありますが、既存の方法は適応能力に大きな制限を示します。
このギャップに対処するには、動的な調整を通じて進化する環境相互作用を通じて継続的な適応を可能にする自律運転システムが必要です。
これは、システムの適応性を向上させるための継続的な学習能力を強化する必要性を強調しています。
これらの課題に対処するために、このペーパーでは、データ集約のための補強学習と監視された学習を統合することによって達成される動的環境の変動への適応を促進する動的なプログレッシブ最適化フレームワークを紹介します。
このフレームワークに基づいて、プログレッシブエキスパート(MOPE)ネットワークの混合を提案します。
提案された方法は、各タスクの明確な特性に基づいて複数のエキスパートモデルを選択的にアクティブにし、ネットワークアーキテクチャを徐々に改良して、新しいタスクへの適応を促進します。
シミュレーション結果は、MOPEモデルが動作のクローニング方法を上回り、複雑な都市道路環境で最大7.8%のパフォーマンス改善を達成することを示しています。

要約(オリジナル)

Learning-based autonomous driving requires continuous integration of diverse knowledge in complex traffic , yet existing methods exhibit significant limitations in adaptive capabilities. Addressing this gap demands autonomous driving systems that enable continual adaptation through dynamic adjustments to evolving environmental interactions. This underscores the necessity for enhanced continual learning capabilities to improve system adaptability. To address these challenges, the paper introduces a dynamic progressive optimization framework that facilitates adaptation to variations in dynamic environments, achieved by integrating reinforcement learning and supervised learning for data aggregation. Building on this framework, we propose the Mixture of Progressive Experts (MoPE) network. The proposed method selectively activates multiple expert models based on the distinct characteristics of each task and progressively refines the network architecture to facilitate adaptation to new tasks. Simulation results show that the MoPE model outperforms behavior cloning methods, achieving up to a 7.8% performance improvement in intricate urban road environments.

arxiv情報

著者 Yixin Cui,Shuo Yang,Chi Wan,Xincheng Li,Jiaming Xing,Yuanjian Zhang,Yanjun Huang,Hong Chen
発行日 2025-02-17 04:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Continual Adaptation for Autonomous Driving with the Mixture of Progressive Experts Network はコメントを受け付けていません

Learning Dexterous Bimanual Catch Skills through Adversarial-Cooperative Heterogeneous-Agent Reinforcement Learning

要約

ロボットキャッチングは、伝統的に片手システムに焦点を当ててきました。片手システムは、より大きいまたはより複雑なオブジェクトを処理する能力が制限されています。
対照的に、二近のキャッチは、器用さとオブジェクトの取り扱いを改善するための重要な可能性を提供しますが、調整と制御に新しい課題をもたらします。
この論文では、不均一なエージェント補強学習(HARL)を使用して、器用な双方向キャッチスキルを学習するための新しいフレームワークを提案します。
私たちのアプローチでは、スローエージェントがスロー調整の難しさを高める敵対的な報酬スキームを導入します。漁獲エージェントがこれらの進化する条件下でオブジェクトを捕まえるために両手を調整することを学びます。
15の異なるオブジェクトを使用して、シミュレートされた環境でフレームワークを評価し、多様なオブジェクトの処理において堅牢性と汎用性を示します。
私たちの方法は、15の多様なオブジェクトにわたる単一エージェントのベースラインと比較して、キャッチング報酬が約2倍増加しました。

要約(オリジナル)

Robotic catching has traditionally focused on single-handed systems, which are limited in their ability to handle larger or more complex objects. In contrast, bimanual catching offers significant potential for improved dexterity and object handling but introduces new challenges in coordination and control. In this paper, we propose a novel framework for learning dexterous bimanual catching skills using Heterogeneous-Agent Reinforcement Learning (HARL). Our approach introduces an adversarial reward scheme, where a throw agent increases the difficulty of throws-adjusting speed-while a catch agent learns to coordinate both hands to catch objects under these evolving conditions. We evaluate the framework in simulated environments using 15 different objects, demonstrating robustness and versatility in handling diverse objects. Our method achieved approximately a 2x increase in catching reward compared to single-agent baselines across 15 diverse objects.

arxiv情報

著者 Taewoo Kim,Youngwoo Yoon,Jaehong Kim
発行日 2025-02-17 04:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Dexterous Bimanual Catch Skills through Adversarial-Cooperative Heterogeneous-Agent Reinforcement Learning はコメントを受け付けていません

Doppler Correspondence: Non-Iterative Scan Matching With Doppler Velocity-Based Correspondence

要約

スキャンマッチングの成功を達成することは、Lidar臭気に不可欠です。
ただし、有害な気象条件や繰り返しの幾何学的パターンを備えた挑戦的な環境では、スキャンのマッチングが誤っているため、Lidar臭気性の性能が低下します。
最近、周波数変調された連続波4D LIDARおよび4Dレーダーテクノロジーの出現により、これらの不利な条件に対処する可能性が提供されました。
4Dという用語は、ドップラー速度とともに範囲、方位角、および標高によって特徴付けられるポイントクラウドデータを指します。
4Dデータは利用可能ですが、4D LIDARと4Dレーダーのほとんどのスキャンマッチング方法は、連続したスキャン間の最も近いポイントを繰り返し識別し、ドップラー情報を見落とすことにより、依然として対応を確立します。
このペーパーでは、幾何学的および運動学的基礎を備えたセンサーの翻訳と小さな回転に不変である、単純なドップラー速度ベースの対応 – ドップラーの対応 – を初めて紹介します。
広範な実験は、提案された方法により、反復プロセスなしで連続したポイントクラウドの直接的な一致が可能になり、計算上効率を高めることができることを示しています。
さらに、幾何学的なパターンを備えた環境で、より堅牢な対応推定を提供します。

要約(オリジナル)

Achieving successful scan matching is essential for LiDAR odometry. However, in challenging environments with adverse weather conditions or repetitive geometric patterns, LiDAR odometry performance is degraded due to incorrect scan matching. Recently, the emergence of frequency-modulated continuous wave 4D LiDAR and 4D radar technologies has provided the potential to address these unfavorable conditions. The term 4D refers to point cloud data characterized by range, azimuth, and elevation along with Doppler velocity. Although 4D data is available, most scan matching methods for 4D LiDAR and 4D radar still establish correspondence by repeatedly identifying the closest points between consecutive scans, overlooking the Doppler information. This paper introduces, for the first time, a simple Doppler velocity-based correspondence — Doppler Correspondence — that is invariant to translation and small rotation of the sensor, with its geometric and kinematic foundations. Extensive experiments demonstrate that the proposed method enables the direct matching of consecutive point clouds without an iterative process, making it computationally efficient. Additionally, it provides a more robust correspondence estimation in environments with repetitive geometric patterns.

arxiv情報

著者 Jiwoo Kim,Geunsik Bae,Changseung Kim,Jinwoo Lee,Woojae Shin,Hyondong Oh
発行日 2025-02-17 05:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Doppler Correspondence: Non-Iterative Scan Matching With Doppler Velocity-Based Correspondence はコメントを受け付けていません

Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation

要約

特にタスクの障害からの不完全なデータのためのデータ利用の改善は、現実世界での挑戦的で時間がかかり、高価なデータ収集プロセスのためにロボット操作に重要です。
現在の模倣学習(IL)は通常、不完全なデータを破棄し、成功した専門家データのみに焦点を当てています。
強化学習(RL)は探索と障害から学ぶことができますが、SIM2REALギャップと密な報酬とオンライン探査への依存により、実際のシナリオで効果的に適用することが困難になります。
この作業では、オフラインでロボット操作のモデルパフォーマンスを改善するための報酬情報を必要とせずに、不完全なデータを活用するという課題を征服することを目指しています。
具体的には、エキスパートと不完全なデータを組み合わせて、失敗した軌道セグメントの品質スコアを計算する自己監視データフィルタリングフレームワーク(SSDF)を導入します。
故障したデータからの高品質のセグメントは、トレーニングデータセットを拡張するために使用されます。
次に、強化されたデータセットを、ロボット操作タスクの下流のポリシー学習方法で使用できます。
フランカロボットアームを使用して、高忠実度Sapienシミュレーターと実世界のロボット操作タスクに基づいて構築されたManiskill2ベンチマークに関する広範な実験により、SSDFは高品質の不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボットの成功率を改善できることが示されました。
操作タスク。

要約(オリジナル)

Improving data utilization, especially for imperfect data from task failures, is crucial for robotic manipulation due to the challenging, time-consuming, and expensive data collection process in the real world. Current imitation learning (IL) typically discards imperfect data, focusing solely on successful expert data. While reinforcement learning (RL) can learn from explorations and failures, the sim2real gap and its reliance on dense reward and online exploration make it difficult to apply effectively in real-world scenarios. In this work, we aim to conquer the challenge of leveraging imperfect data without the need for reward information to improve the model performance for robotic manipulation in an offline manner. Specifically, we introduce a Self-Supervised Data Filtering framework (SSDF) that combines expert and imperfect data to compute quality scores for failed trajectory segments. High-quality segments from the failed data are used to expand the training dataset. Then, the enhanced dataset can be used with any downstream policy learning method for robotic manipulation tasks. Extensive experiments on the ManiSkill2 benchmark built on the high-fidelity Sapien simulator and real-world robotic manipulation tasks using the Franka robot arm demonstrated that the SSDF can accurately expand the training dataset with high-quality imperfect data and improve the success rates for all robotic manipulation tasks.

arxiv情報

著者 Kun Wu,Ning Liu,Zhen Zhao,Di Qiu,Jinming Li,Zhengping Che,Zhiyuan Xu,Qinru Qiu,Jian Tang
発行日 2025-02-17 06:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.9 | Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation はコメントを受け付けていません

Anti-Degeneracy Scheme for Lidar SLAM based on Particle Filter in Geometry Feature-Less Environments

要約

粒子フィルタリングに基づく同時ローカリゼーションとマッピング(SLAM)は、その高効率のため、屋内シナリオで広く採用されています。
ただし、ジオメトリの特徴のないシーンでは、制約の欠如により精度が大幅に低下します。
この記事では、深い学習に基づいて偏系系統システムを提案します。
第一に、連続空間内の座標を離散インデックスに変換するためにスケール不変の線形マッピングを設計します。そこでは、ガウスモデルに基づくデータ増強法が提案され、モデルのパフォーマンスを確保し、粒子数の変化の影響を効果的に軽減することにより、モデルのパフォーマンスを確保することが提案されています。
機能分布。
第二に、粒子集団の分布を精査することにより縮退を特定できる残留ニューラルネットワーク(ResNet)と変圧器を使用して、変性検出モデルを開発します。
第三に、適応的な抗ゲネラシー戦略が設計されています。これは、最初にリザンププロセスで融合と摂動を実行し、ポーズ最適化の豊富で正確な初期値を提供し、粗と細かいマッチングを組み合わせた階層的なポーズ最適化を使用します。
グローバルな最適なポーズを検索する能力を高めるために、最適化頻度とセンサーの信頼性を退化の程度に従って調整します。
最後に、モデルの最適性、およびアブレーション実験を通じて計算時間における画像マトリックス法とGPUの改善を実証し、シミュレーション実験と実際の実験を通じて、さまざまなシナリオでの偏系システムのパフォーマンスを検証します。
この作業は、公開のためにIEEEに提出されました。
著作権は予告なしに転送される場合があります。その後、このバージョンは利用できなくなる可能性があります。

要約(オリジナル)

Simultaneous localization and mapping (SLAM) based on particle filtering has been extensively employed in indoor scenarios due to its high efficiency. However, in geometry feature-less scenes, the accuracy is severely reduced due to lack of constraints. In this article, we propose an anti-degeneracy system based on deep learning. Firstly, we design a scale-invariant linear mapping to convert coordinates in continuous space into discrete indexes, in which a data augmentation method based on Gaussian model is proposed to ensure the model performance by effectively mitigating the impact of changes in the number of particles on the feature distribution. Secondly, we develop a degeneracy detection model using residual neural networks (ResNet) and transformer which is able to identify degeneracy by scrutinizing the distribution of the particle population. Thirdly, an adaptive anti-degeneracy strategy is designed, which first performs fusion and perturbation on the resample process to provide rich and accurate initial values for the pose optimization, and use a hierarchical pose optimization combining coarse and fine matching, which is able to adaptively adjust the optimization frequency and the sensor trustworthiness according to the degree of degeneracy, in order to enhance the ability of searching the global optimal pose. Finally, we demonstrate the optimality of the model, as well as the improvement of the image matrix method and GPU on the computation time through ablation experiments, and verify the performance of the anti-degeneracy system in different scenarios through simulation experiments and real experiments. This work has been submitted to IEEE for publication. Copyright may be transferred without notice, after which this version may no longer be available.

arxiv情報

著者 Yanbin Li,Wei Zhang,Zhiguo Zhang,Xiaogang Shi,Ziruo Li,Mingming Zhang,Hongping Xie,Wenzheng Chi
発行日 2025-02-17 06:42:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Anti-Degeneracy Scheme for Lidar SLAM based on Particle Filter in Geometry Feature-Less Environments はコメントを受け付けていません

SurgPose: a Dataset for Articulated Robotic Surgical Tool Pose Estimation and Tracking

要約

正確かつ効率的な外科的ロボットツールのポーズ推定は、外科的訓練や学習ベースの自律操作における拡張現実(AR)などのダウンストリームアプリケーションにとって根本的な重要性です。
人間と動物のポーズ推定において大きな進歩がなされていますが、公開されたデータが不足しているため、外科的ロボット工学の課題です。
Da Vinci End Effector Kinematicsと困難なキャリブレーション手順の比較的大きな絶対誤差により、校正された運動学のデータ収集が高価になります。
この制限に駆られ、Surposeと呼ばれるデータセットを収集し、視覚的な外科的ツールのポーズ推定と追跡のために、インスタンスに認識されたセマンティックキーポイントとスケルトンを提供しました。
紫外線(UV)反応塗料を使用してキーポイントをマークすることにより、白色光の下では見えず、UV光の下で蛍光を発します。異なる照明条件下で同じ軌跡を実行して、それぞれ生ビデオとキーポイント注釈を収集します。
Surposeデータセットは、6つのカテゴリの約120kの手術器具インスタンス(トレーニングでは80k、検証用)で構成されています。
各機器インスタンスには、7つのセマンティックキーポイントが付いています。
ビデオはステレオペアで収集されるため、2Dポーズをステレオマッチングの深さに基づいて3Dに持ち上げることができます。
データセットのリリースに加えて、外科用品追跡に対するいくつかのベースラインアプローチをテストして、外科の有用性を実証します。
詳細については、surpose.github.ioをご覧ください。

要約(オリジナル)

Accurate and efficient surgical robotic tool pose estimation is of fundamental significance to downstream applications such as augmented reality (AR) in surgical training and learning-based autonomous manipulation. While significant advancements have been made in pose estimation for humans and animals, it is still a challenge in surgical robotics due to the scarcity of published data. The relatively large absolute error of the da Vinci end effector kinematics and arduous calibration procedure make calibrated kinematics data collection expensive. Driven by this limitation, we collected a dataset, dubbed SurgPose, providing instance-aware semantic keypoints and skeletons for visual surgical tool pose estimation and tracking. By marking keypoints using ultraviolet (UV) reactive paint, which is invisible under white light and fluorescent under UV light, we execute the same trajectory under different lighting conditions to collect raw videos and keypoint annotations, respectively. The SurgPose dataset consists of approximately 120k surgical instrument instances (80k for training and 40k for validation) of 6 categories. Each instrument instance is labeled with 7 semantic keypoints. Since the videos are collected in stereo pairs, the 2D pose can be lifted to 3D based on stereo-matching depth. In addition to releasing the dataset, we test a few baseline approaches to surgical instrument tracking to demonstrate the utility of SurgPose. More details can be found at surgpose.github.io.

arxiv情報

著者 Zijian Wu,Adam Schmidt,Randy Moore,Haoying Zhou,Alexandre Banks,Peter Kazanzides,Septimiu E. Salcudean
発行日 2025-02-17 08:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SurgPose: a Dataset for Articulated Robotic Surgical Tool Pose Estimation and Tracking はコメントを受け付けていません

Disentangled Iterative Surface Fitting for Contact-stable Grasp Planning

要約

この作業では、表面フィッティングベースのグラスプランニングアルゴリズムの制限に対処します。これは、主にグリッパーとオブジェクトの表面の幾何学的アライメントに焦点を当て、接触点分布の安定性を見落とし、しばしば不安定な接触構成による不安定な握りをもたらします。
この制限を克服するために、幾何学的互換性を維持しながら接触の安定性を統合する新しい表面フィッティングアルゴリズムを提案します。
人間の把握行動に触発されて、私たちの方法は、把握の最適化を3つの順次ステップに分解しません:(1)接触正常性を調整するための回転最適化、(2)質量の中心(COM)アライメントを改善するための翻訳改善、および(3)グリッパーアパーチャ調整
コンタクトポイント分布を最適化します。
10個のYCBデータセットオブジェクトのシミュレーションを通じてアプローチを検証し、接触の安定性を無視する従来の表面フィッティング方法よりも把握成功の80%の改善を示しています。
詳細については、プロジェクトページのページをご覧ください:https://tomoya-yamanokuchi.github.io/disf-project-page/。

要約(オリジナル)

In this work, we address the limitation of surface fitting-based grasp planning algorithm, which primarily focuses on geometric alignment between the gripper and object surface while overlooking the stability of contact point distribution, often resulting in unstable grasps due to inadequate contact configurations. To overcome this limitation, we propose a novel surface fitting algorithm that integrates contact stability while preserving geometric compatibility. Inspired by human grasping behavior, our method disentangles the grasp pose optimization into three sequential steps: (1) rotation optimization to align contact normals, (2) translation refinement to improve Center of Mass (CoM) alignment, and (3) gripper aperture adjustment to optimize contact point distribution. We validate our approach through simulations on ten YCB dataset objects, demonstrating an 80% improvement in grasp success over conventional surface fitting methods that disregard contact stability. Further details can be found on our project page: https://tomoya-yamanokuchi.github.io/disf-project-page/.

arxiv情報

著者 Tomoya Yamanokuchi,Alberto Bacchin,Emilio Olivastri,Takamitsu Matsubara,Emanuele Menegatti
発行日 2025-02-17 08:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Disentangled Iterative Surface Fitting for Contact-stable Grasp Planning はコメントを受け付けていません

EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents

要約

不均一なマルチロボットシステム(HMR)は、単一のロボットが単独で管理できない複雑なタスクに取り組むための強力なアプローチとして浮上しています。
現在の大型言語モデルベースのマルチエージェントシステム(LLMベースのMAS)は、ソフトウェア開発やオペレーティングシステムなどの分野で成功を示していますが、これらのシステムをロボットコントロールに適用すると、独自の課題が発生します。
特に、マルチロボットシステムの各エージェントの機能は、事前定義された役割ではなく、ロボットの物理的構成に本質的に結び付けられています。
この問題に対処するために、さまざまな実施形態と能力を備えた不均一ロボット間の効果的なコラボレーションと、Habitat-Masという名前の新しいベンチマークとともに設計された新しいマルチエージェントフレームワークを紹介します。
私たちの重要なデザインの1つは$ \ textit {robot resume} $です。人間が設計したロールプレイを採用する代わりに、エージェントがロボットURDFファイルを理解し、ロボット運動学ツールを呼び出して物理能力の説明を生成する自己宣伝アプローチを提案します。
タスクの計画と行動の実行における行動を導く。
Habitat-MASベンチマークは、マルチエージェントフレームワークが、1)操作、2)知覚、3)ナビゲーション、4)包括的な多階建てのオブジェクトの再配置を含む、具体化された推論を必要とするタスクをどのように処理するかを評価するように設計されています。
実験結果は、ロボットの履歴書とマルチエージェントシステムの階層設計が、この複雑な問題コンテキスト内で不均一なマルチロボットシステムの効果的な動作に不可欠であることを示しています。

要約(オリジナル)

Heterogeneous multi-robot systems (HMRS) have emerged as a powerful approach for tackling complex tasks that single robots cannot manage alone. Current large-language-model-based multi-agent systems (LLM-based MAS) have shown success in areas like software development and operating systems, but applying these systems to robot control presents unique challenges. In particular, the capabilities of each agent in a multi-robot system are inherently tied to the physical composition of the robots, rather than predefined roles. To address this issue, we introduce a novel multi-agent framework designed to enable effective collaboration among heterogeneous robots with varying embodiments and capabilities, along with a new benchmark named Habitat-MAS. One of our key designs is $\textit{Robot Resume}$: Instead of adopting human-designed role play, we propose a self-prompted approach, where agents comprehend robot URDF files and call robot kinematics tools to generate descriptions of their physics capabilities to guide their behavior in task planning and action execution. The Habitat-MAS benchmark is designed to assess how a multi-agent framework handles tasks that require embodiment-aware reasoning, which includes 1) manipulation, 2) perception, 3) navigation, and 4) comprehensive multi-floor object rearrangement. The experimental results indicate that the robot’s resume and the hierarchical design of our multi-agent system are essential for the effective operation of the heterogeneous multi-robot system within this intricate problem context.

arxiv情報

著者 Junting Chen,Checheng Yu,Xunzhe Zhou,Tianqi Xu,Yao Mu,Mengkang Hu,Wenqi Shao,Yikai Wang,Guohao Li,Lin Shao
発行日 2025-02-17 08:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO, I.2.10 | EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents はコメントを受け付けていません

High-quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement

要約

構造化されていない環境での未知のオブジェクトの正確で効率的なセグメンテーションは、ロボット操作に不可欠です。
不明なオブジェクトインスタンスセグメンテーション(UOIS)は、不明なカテゴリと背景のすべてのオブジェクトを識別することを目的としており、さまざまなロボットタスクの重要な機能となっています。
ただし、既存の方法は、過剰セグメンテーションとセグメンテーションを過小評価することに苦労しており、把握などの操作タスクの失敗につながります。
これらの課題に対処するために、高品質のUOIのための新しいエラー情報の改良アプローチであるQuber(四重境界誤差の改良)を提案します。
Quberは、最初の推定四重境界誤差 – 正常陽性、真のネガティブ、偽陽性、および偽陰性ピクセル – 初期セグメンテーションのインスタンス境界で。
次に、エラーガイド付き融合メカニズムを使用してセグメンテーションを改良し、微細粒度とインスタンスレベルのセグメンテーションエラーの両方を効果的に修正します。
3つのパブリックベンチマークでの広範な評価は、Quberが最先端の方法を上回り、0.1秒未満の高速推論時間を維持しながら、さまざまなUOIメソッドを一貫して改善することを示しています。
さらに、Quberが乱雑な環境でターゲットオブジェクトを把握することの成功率を改善することを示します。
コードと補足資料は、https://sites.google.com/view/uois-quberで入手できます。

要約(オリジナル)

Accurate and efficient segmentation of unknown objects in unstructured environments is essential for robotic manipulation. Unknown Object Instance Segmentation (UOIS), which aims to identify all objects in unknown categories and backgrounds, has become a key capability for various robotic tasks. However, existing methods struggle with over-segmentation and under-segmentation, leading to failures in manipulation tasks such as grasping. To address these challenges, we propose QuBER (Quadruple Boundary Error Refinement), a novel error-informed refinement approach for high-quality UOIS. QuBER first estimates quadruple boundary errors-true positive, true negative, false positive, and false negative pixels-at the instance boundaries of the initial segmentation. It then refines the segmentation using an error-guided fusion mechanism, effectively correcting both fine-grained and instance-level segmentation errors. Extensive evaluations on three public benchmarks demonstrate that QuBER outperforms state-of-the-art methods and consistently improves various UOIS methods while maintaining a fast inference time of less than 0.1 seconds. Furthermore, we show that QuBER improves the success rate of grasping target objects in cluttered environments. Code and supplementary materials are available at https://sites.google.com/view/uois-quber.

arxiv情報

著者 Seunghyeok Back,Sangbeom Lee,Kangmin Kim,Joosoon Lee,Sungho Shin,Jemo Maeng,Kyoobin Lee
発行日 2025-02-17 08:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | High-quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement はコメントを受け付けていません

Leader and Follower: Interactive Motion Generation under Trajectory Constraints

要約

ゲームと映画制作の急速な進歩により、テキストからインタラクティブな動きを生み出すことは、コンテンツの作成プロセスに革命をもたらす可能性のために大きな注目を集めています。
多くの実用的なアプリケーションでは、仮想文字のモーション範囲または軌跡に厳格な制約を課す必要があります。
ただし、テキスト入力のみに依存する既存の方法は、特に望ましい軌跡を指定​​する際に、ユーザーの意図を正確にキャプチャする上で大きな課題に直面しています。
その結果、生成された動きは、しばしばもっともらしいと精度を欠いています。
さらに、カスタマイズされたモーション生成のための既存の軌跡ベースの方法は、単一の俳優シナリオの再訓練に依存しています。これにより、さまざまなデータセットへの柔軟性と適応性が制限され、2因子の動きにおけるインタラクティブが制限されます。
指定された軌跡に続いてインタラクティブな動きを生成するために、このペーパーは、パートナーダンスの役割の割り当てに触発された、複雑な動きをリーダーに隔離します。フォロワーダイナミックです。
このフレームワークに基づいて、このペーパーでは、インタラクティブモーション生成におけるモーション範囲の改良プロセスを調査し、ペースコントローラーと運動学的同期アダプターを統合するトレーニングなしのアプローチを提案します。
このフレームワークは、リーダーの動きを制御し、リーダーと整合するためのフォロワーの動きを修正することにより、軌道に準拠する動きを生成する既存のモデルの能力を高めます。
実験結果は、提案されたアプローチが、軌道情報をよりよく活用することにより、リアリズムと精度の両方で既存の方法を上回ることを示しています。

要約(オリジナル)

With the rapid advancement of game and film production, generating interactive motion from texts has garnered significant attention due to its potential to revolutionize content creation processes. In many practical applications, there is a need to impose strict constraints on the motion range or trajectory of virtual characters. However, existing methods that rely solely on textual input face substantial challenges in accurately capturing the user’s intent, particularly in specifying the desired trajectory. As a result, the generated motions often lack plausibility and accuracy. Moreover, existing trajectory – based methods for customized motion generation rely on retraining for single – actor scenarios, which limits flexibility and adaptability to different datasets, as well as interactivity in two-actor motions. To generate interactive motion following specified trajectories, this paper decouples complex motion into a Leader – Follower dynamic, inspired by role allocation in partner dancing. Based on this framework, this paper explores the motion range refinement process in interactive motion generation and proposes a training-free approach, integrating a Pace Controller and a Kinematic Synchronization Adapter. The framework enhances the ability of existing models to generate motion that adheres to trajectory by controlling the leader’s movement and correcting the follower’s motion to align with the leader. Experimental results show that the proposed approach, by better leveraging trajectory information, outperforms existing methods in both realism and accuracy.

arxiv情報

著者 Runqi Wang,Caoyuan Ma,Jian Zhao,Hanrui Xu,Dongfang Sun,Haoyang Chen,Lin Xiong,Zheng Wang,Xuelong Li
発行日 2025-02-17 08:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Leader and Follower: Interactive Motion Generation under Trajectory Constraints はコメントを受け付けていません