Autonomous 3D Moving Target Encirclement and Interception with Range measurement

要約

商業用UAVは、危険なペイロードを運ぶことができたり、航空交通を破壊することができるため、新たなセキュリティの脅威です。
UAVに対抗するために、自律的な3Dターゲットの包囲戦略と傍受戦略を導入します。
従来の地上誘導システムとは異なり、この戦略は自律的なドローンを採用して、非視覚的条件、GPSの否定、およびレーダー詰まりに効果的である非協力的な敵対的なUAVを追跡および関与させます。
ドローンで測定された2つのノイズの多いリアルタイム距離を使用して、ガーディアンドローンは、垂直ジッターと組み合わせた抗同期(AS)とX $-$ Y円の動きに基づいて、観測および速度補正方法を使用して、ターゲットへの相対位置をターゲットに推定します。
UAVがターゲットの包囲および保護から敵対的なターゲットの包囲および監視への適応的に移行できるようにするために、包囲制御メカニズムが提案されています。
警告のしきい値に違反すると、UAVは敵対的な標的を中和するために自殺攻撃を採用することさえあります。
この戦略は、MATLABでの実際のUAV実験とシミュレーション分析を通じて検証し、敵対的なドローンの検出、包囲、および傍受におけるその有効性を示しています。
詳細:https://youtu.be/5ehw56lpvto。

要約(オリジナル)

Commercial UAVs are an emerging security threat as they are capable of carrying hazardous payloads or disrupting air traffic. To counter UAVs, we introduce an autonomous 3D target encirclement and interception strategy. Unlike traditional ground-guided systems, this strategy employs autonomous drones to track and engage non-cooperative hostile UAVs, which is effective in non-line-of-sight conditions, GPS denial, and radar jamming, where conventional detection and neutralization from ground guidance fail. Using two noisy real-time distances measured by drones, guardian drones estimate the relative position from their own to the target using observation and velocity compensation methods, based on anti-synchronization (AS) and an X$-$Y circular motion combined with vertical jitter. An encirclement control mechanism is proposed to enable UAVs to adaptively transition from encircling and protecting a target to encircling and monitoring a hostile target. Upon breaching a warning threshold, the UAVs may even employ a suicide attack to neutralize the hostile target. We validate this strategy through real-world UAV experiments and simulated analysis in MATLAB, demonstrating its effectiveness in detecting, encircling, and intercepting hostile drones. More details: https://youtu.be/5eHW56lPVto.

arxiv情報

著者 Fen Liu,Shenghai Yuan,Thien-Minh Nguyen,Rong Su
発行日 2025-06-16 05:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | Autonomous 3D Moving Target Encirclement and Interception with Range measurement はコメントを受け付けていません

ActiveSplat: High-Fidelity Scene Reconstruction through Active Gaussian Splatting

要約

Gaussian Spluttingを活用する自律的な高忠実度再構成システムであるActivesPlatを提案します。
効率的で現実的なレンダリングを活用して、このシステムは、オンラインマッピング、視点選択、およびパス計画のための統一されたフレームワークを確立します。
ActivesPlatの鍵は、環境に関する高密度の情報とワークスペースのまばらな抽象化の両方を統合するハイブリッドマップ表現です。
したがって、システムは、効率的な視点サンプリングとパス計画のためにスパーストポロジを活用し、視点選択のためにビュー依存の密な予測を活用し、有望な精度と完全性を備えた効率的な意思決定を促進します。
トポロジカルマップに基づいた階層的計画戦略が採用され、繰り返しの軌跡を軽減し、限られた時間予算を考慮して局所的な粒度を改善し、光リアリスティックビューの合成による高忠実度の再構築を確保します。
広範な実験とアブレーション研究は、再構築の精度、データカバレッジ、および探査効率の観点から提案された方法の有効性を検証します。
リリースされたコードは、プロジェクトページhttps://liyuetao.github.io/activesplat/で入手できます。

要約(オリジナル)

We propose ActiveSplat, an autonomous high-fidelity reconstruction system leveraging Gaussian splatting. Taking advantage of efficient and realistic rendering, the system establishes a unified framework for online mapping, viewpoint selection, and path planning. The key to ActiveSplat is a hybrid map representation that integrates both dense information about the environment and a sparse abstraction of the workspace. Therefore, the system leverages sparse topology for efficient viewpoint sampling and path planning, while exploiting view-dependent dense prediction for viewpoint selection, facilitating efficient decision-making with promising accuracy and completeness. A hierarchical planning strategy based on the topological map is adopted to mitigate repetitive trajectories and improve local granularity given limited time budgets, ensuring high-fidelity reconstruction with photorealistic view synthesis. Extensive experiments and ablation studies validate the efficacy of the proposed method in terms of reconstruction accuracy, data coverage, and exploration efficiency. The released code will be available on our project page: https://li-yuetao.github.io/ActiveSplat/.

arxiv情報

著者 Yuetao Li,Zijia Kuang,Ting Li,Qun Hao,Zike Yan,Guyue Zhou,Shaohui Zhang
発行日 2025-06-16 06:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ActiveSplat: High-Fidelity Scene Reconstruction through Active Gaussian Splatting はコメントを受け付けていません

Cognitive Synergy Architecture: SEGO for Human-Centric Collaborative Robots

要約

このペーパーでは、幾何学的知覚、セマンティック推論、および説明生成を人間中心の共同ロボット工学の統合フレームワークに統合するために設計された認知マッピングアーキテクチャであるセゴ(セマンティックグラフオントロジー)を紹介します。
Segoは、環境の空間構成だけでなく、検出されたオブジェクト間の意味関係と存在論的一貫性を表す動的な認知シーングラフを構築します。
アーキテクチャは、スラムベースのローカリゼーション、ディープラーニングベースのオブジェクトの検出と追跡、およびオントロジー駆動型の推論をシームレスに組み合わせて、リアルタイムで意味的にコヒーレントなマッピングを可能にします。

要約(オリジナル)

This paper presents SEGO (Semantic Graph Ontology), a cognitive mapping architecture designed to integrate geometric perception, semantic reasoning, and explanation generation into a unified framework for human-centric collaborative robotics. SEGO constructs dynamic cognitive scene graphs that represent not only the spatial configuration of the environment but also the semantic relations and ontological consistency among detected objects. The architecture seamlessly combines SLAM-based localization, deep-learning-based object detection and tracking, and ontology-driven reasoning to enable real-time, semantically coherent mapping.

arxiv情報

著者 Jaehong Oh
発行日 2025-06-16 07:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Cognitive Synergy Architecture: SEGO for Human-Centric Collaborative Robots はコメントを受け付けていません

Canonical Representation and Force-Based Pretraining of 3D Tactile for Dexterous Visuo-Tactile Policy Learning

要約

触覚センシングは、ロボットがきめ細かい接触豊富なタスクを実行できるようにする上で重要な役割を果たします。
ただし、器用な手に大きなカバレッジがあるため、触覚データの高次元は、特に標準化されたデータセットが大きく、強力な前提型の骨格がないため、効果的な触覚機能学習に大きな課題をもたらします。
これらの課題に対処するために、3D触覚機能学習の難しさを軽減する新しい標準表現を提案し、局所的および正味の力の両方の特徴をキャプチャするための力に基づく自己監視前の事前削除タスクをさらに導入します。
私たちの方法は、実際の実験で4つのきめの細かい接触豊富な巧妙な操作タスクにわたって平均成功率を達成し、他の方法と比較して有効性と堅牢性を示しています。
さらなる分析により、この方法は、3D触覚データからの空間情報と力情報の両方を完全に利用して、タスクを達成することが示されています。
コードとビデオはhttps://3dtacdex.github.ioで見ることができます。

要約(オリジナル)

Tactile sensing plays a vital role in enabling robots to perform fine-grained, contact-rich tasks. However, the high dimensionality of tactile data, due to the large coverage on dexterous hands, poses significant challenges for effective tactile feature learning, especially for 3D tactile data, as there are no large standardized datasets and no strong pretrained backbones. To address these challenges, we propose a novel canonical representation that reduces the difficulty of 3D tactile feature learning and further introduces a force-based self-supervised pretraining task to capture both local and net force features, which are crucial for dexterous manipulation. Our method achieves an average success rate of 78% across four fine-grained, contact-rich dexterous manipulation tasks in real-world experiments, demonstrating effectiveness and robustness compared to other methods. Further analysis shows that our method fully utilizes both spatial and force information from 3D tactile data to accomplish the tasks. The codes and videos can be viewed at https://3dtacdex.github.io.

arxiv情報

著者 Tianhao Wu,Jinzhou Li,Jiyao Zhang,Mingdong Wu,Hao Dong
発行日 2025-06-16 07:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Canonical Representation and Force-Based Pretraining of 3D Tactile for Dexterous Visuo-Tactile Policy Learning はコメントを受け付けていません

Multimodal ‘Puppeteer’: An Exploration of Robot Teleoperation Via Virtual Counterpart with LLM-Driven Voice and Gesture Interaction in Augmented Reality

要約

ロボット工学と拡張現実(AR)の統合は、人間とロボットの相互作用(HRI)を進めるための変革の可能性を秘め、使いやすさ、直感性、アクセシビリティ、および共同タスクのパフォーマンスの強化を提供します。
このペーパーでは、大規模な言語モデル(LLM)駆動型の音声コマンドとハンドジェスチャーの相互作用を介して、仮想カウンターパートを介して直感的なテレオ操作を可能にする、新しいマルチモーダルARベースのロボットパイプターフレームワークを紹介および評価します。
Meta Quest 3を利用して、ユーザーは仮想カウンターパートロボットとリアルタイムで対話し、AR環境内で物理的な対応物を効果的に「操ります」。
42人の参加者が2つの条件下でパターンマッチングタスクを備えたロボットキューブのピックアンドプレイスを実行する42人の参加者を使用して、被験者内ユーザー調査を実施しました。
客観的なパフォーマンスメトリックと主観的なユーザーエクスペリエンス(UX)測定値の両方が評価されました。これには、ロボット奏者と非ロバティック主義者の間の拡張比較分析が含まれます。
この結果は、マルチモーダル入力がARベースのHRIのコンテキストタスク効率、使いやすさ、およびユーザーの満足度にどのように影響するかについての重要な洞察を提供します。
私たちの調査結果は、効果的なAR強化HRIシステムを設計するための実用的なデザインの意味を提供します。

要約(オリジナル)

The integration of robotics and augmented reality (AR) holds transformative potential for advancing human-robot interaction (HRI), offering enhancements in usability, intuitiveness, accessibility, and collaborative task performance. This paper introduces and evaluates a novel multimodal AR-based robot puppeteer framework that enables intuitive teleoperation via virtual counterpart through large language model (LLM)-driven voice commands and hand gesture interactions. Utilizing the Meta Quest 3, users interact with a virtual counterpart robot in real-time, effectively ‘puppeteering’ its physical counterpart within an AR environment. We conducted a within-subject user study with 42 participants performing robotic cube pick-and-place with pattern matching tasks under two conditions: gesture-only interaction and combined voice-and-gesture interaction. Both objective performance metrics and subjective user experience (UX) measures were assessed, including an extended comparative analysis between roboticists and non-roboticists. The results provide key insights into how multimodal input influences contextual task efficiency, usability, and user satisfaction in AR-based HRI. Our findings offer practical design implications for designing effective AR-enhanced HRI systems.

arxiv情報

著者 Yuchong Zhang,Bastian Orthmann,Shichen Ji,Michael Welle,Jonne Van Haastregt,Danica Kragic
発行日 2025-06-16 07:56:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Multimodal ‘Puppeteer’: An Exploration of Robot Teleoperation Via Virtual Counterpart with LLM-Driven Voice and Gesture Interaction in Augmented Reality はコメントを受け付けていません

Equilibrium-Driven Smooth Separation and Navigation of Marsupial Robotic Systems

要約

このホワイトペーパーでは、有袋類のキャリアとパッサーのロボットシステムが滑らかなキャリアと人乗りの分離を実現し、乗客ロボットを所定のターゲットポイントに向けてナビゲートできるようにする平衡駆動型コントローラーを提案します。
特に、私たちは、移動中のキャリアのフレームのキャリア産業客とキャリアターゲット距離の関数として、乗客のコントローラーの立方多項式の形で潜在的な勾配を設計します。
これにより、キャリアパッサーの分離中にエラー動的システムのゼロ状態に対応する複数の平衡点が導入されます。
平衡点の変化は、その引力領域の変化に関連しており、滑らかなキャリアと人乗りの分離を可能にし、その後ターゲットに向かってシームレスなナビゲーションを可能にします。
最後に、シミュレーションは、障害物を含む環境で提案されたコントローラーの有効性と適応性を示しています。

要約(オリジナル)

In this paper, we propose an equilibrium-driven controller that enables a marsupial carrier-passenger robotic system to achieve smooth carrier-passenger separation and then to navigate the passenger robot toward a predetermined target point. Particularly, we design a potential gradient in the form of a cubic polynomial for the passenger’s controller as a function of the carrier-passenger and carrier-target distances in the moving carrier’s frame. This introduces multiple equilibrium points corresponding to the zero state of the error dynamic system during carrier-passenger separation. The change of equilibrium points is associated with the change in their attraction regions, enabling smooth carrier-passenger separation and afterwards seamless navigation toward the target. Finally, simulations demonstrate the effectiveness and adaptability of the proposed controller in environments containing obstacles.

arxiv情報

著者 Bin-Bin Hu,Bayu Jayawardhana,Ming Cao
発行日 2025-06-16 08:05:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Equilibrium-Driven Smooth Separation and Navigation of Marsupial Robotic Systems はコメントを受け付けていません

C2TE: Coordinated Constrained Task Execution Design for Ordering-Flexible Multi-Vehicle Platoon Merging

要約

このホワイトペーパーでは、異なる車線からの車両のチームが{\ it順序付けられた柔軟性のない小隊}操縦を協力的に統合できるようにする分散調整された制約済みタスク実行(C2TE)アルゴリズムを提案します。
その中で、小隊は、車両の特定の空間順序付けシーケンスが事前に決定されていないという意味で柔軟です。
このような柔軟な小隊を達成するために、まず、マルチビクル小隊(MVP)を2つの段階に統合します。つまり、マルジング前の規制と{\ It順序の柔軟性のない小隊}の融合を統合し、それらを分散した制約ベースの最適化問題に定式化します。
特に、縦方向の距離調節と同じ車線衝突回避サブタスクを対応する制御バリア関数(CBF)制約にエンコードすることにより、ステージ1で提案されたアルゴリズムは、隣接する車両間の十分な長期距離を安全に拡大できます。
次に、横方向の収束、縦方向の標的引力、および隣接する衝突回避サブタスクをCBF制約にエンコードすることにより、ステージ〜2で提案されたアルゴリズムは{\ it順序付けられた柔軟性のない小隊}を効率的に実現できます。
{\ it順序の柔軟性のない小隊}は、縦方向の標的魅力の相互作用と、同時に隣接する衝突回避制約の時間変化によって実現されることに注意してください。
実現可能性保証と厳密な収束分析は、両方とも柔軟な注文によって誘導される強力な非線形結合の下で提供されます。
最後に、3つの自律型モバイル車両(AMV)を使用した実験が行われ、提案されたアルゴリズムの有効性と柔軟性を検証し、広範なシミュレーションが実行され、車両の突然の故障、新しい表示、異なる数のレーン、混合自治、および大規模なシナリオ、および大規模なシミュレーションがそれぞれ堅牢性、適応性、およびスケーラビリティが実証されます。

要約(オリジナル)

In this paper, we propose a distributed coordinated constrained task execution (C2TE) algorithm that enables a team of vehicles from different lanes to cooperatively merge into an {\it ordering-flexible platoon} maneuvering on the desired lane. Therein, the platoon is flexible in the sense that no specific spatial ordering sequences of vehicles are predetermined. To attain such a flexible platoon, we first separate the multi-vehicle platoon (MVP) merging mission into two stages, namely, pre-merging regulation and {\it ordering-flexible platoon} merging, and then formulate them into distributed constraint-based optimization problems. Particularly, by encoding longitudinal-distance regulation and same-lane collision avoidance subtasks into the corresponding control barrier function (CBF) constraints, the proposed algorithm in Stage 1 can safely enlarge sufficient longitudinal distances among adjacent vehicles. Then, by encoding lateral convergence, longitudinal-target attraction, and neighboring collision avoidance subtasks into CBF constraints, the proposed algorithm in Stage~2 can efficiently achieve the {\it ordering-flexible platoon}. Note that the {\it ordering-flexible platoon} is realized through the interaction of the longitudinal-target attraction and time-varying neighboring collision avoidance constraints simultaneously. Feasibility guarantee and rigorous convergence analysis are both provided under strong nonlinear couplings induced by flexible orderings. Finally, experiments using three autonomous mobile vehicles (AMVs) are conducted to verify the effectiveness and flexibility of the proposed algorithm, and extensive simulations are performed to demonstrate its robustness, adaptability, and scalability when tackling vehicles’ sudden breakdown, new appearing, different number of lanes, mixed autonomy, and large-scale scenarios, respectively.

arxiv情報

著者 Bin-Bin Hu,Yanxin Zhou,Henglai Wei,Shuo Cheng,Chen Lv
発行日 2025-06-16 08:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | C2TE: Coordinated Constrained Task Execution Design for Ordering-Flexible Multi-Vehicle Platoon Merging はコメントを受け付けていません

EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence

要約

具体化されたインテリジェンスタスクのトレーニングと評価には、物理​​的に現実的で正確にスケーリングされたシミュレーション3Dワールドを構築することが重要です。
3Dデータ資産の多様性、リアリズム、低コストのアクセシビリティ、および手頃な価格は、具体化されたAIの一般化とスケーラビリティを達成するために重要です。
ただし、現在の具体化されたインテリジェンスタスクのほとんどは、手動で作成および注釈付けされた従来の3Dコンピューターグラフィックアセットに依然として大きく依存しており、生産コストが高く、リアリズムが限られています。
これらの制限は、データ駆動型のアプローチのスケーラビリティを大幅に妨げます。
インタラクティブな3Dワールドジェネレーションの基礎プラットフォームであるEmbodiedGenを提示します。
これにより、正確な物理的特性と実世界のスケールを備えた高品質、制御可能、および光選挙的3Dアセットのスケーラブルな生成が、低コストで統合ロボット学の説明形式(URDF)で実世界のスケールを可能にします。
これらの資産は、細粒の物理的制御のためにさまざまな物理シミュレーションエンジンに直接インポートし、トレーニングと評価の下流タスクをサポートできます。
EmbodiedGenは、画像から3D、テキストから3D、テクスチャ生成、明確なオブジェクト生成、シーン生成、レイアウト生成の6つの重要なモジュールで構成される使いやすく、フル機能のツールキットです。
EmbodiedGenは、生成的3Dアセットで構成される多様でインタラクティブな3Dワールドを生成し、生成AIを活用して、具体化されたインテリジェンス関連の研究のニーズに対する一般化と評価の課題に対処します。
コードはhttps://horizo​​nrobotics.github.io/robot_lab/embodied_gen/index.htmlで入手できます。

要約(オリジナル)

Constructing a physically realistic and accurately scaled simulated 3D world is crucial for the training and evaluation of embodied intelligence tasks. The diversity, realism, low cost accessibility and affordability of 3D data assets are critical for achieving generalization and scalability in embodied AI. However, most current embodied intelligence tasks still rely heavily on traditional 3D computer graphics assets manually created and annotated, which suffer from high production costs and limited realism. These limitations significantly hinder the scalability of data driven approaches. We present EmbodiedGen, a foundational platform for interactive 3D world generation. It enables the scalable generation of high-quality, controllable and photorealistic 3D assets with accurate physical properties and real-world scale in the Unified Robotics Description Format (URDF) at low cost. These assets can be directly imported into various physics simulation engines for fine-grained physical control, supporting downstream tasks in training and evaluation. EmbodiedGen is an easy-to-use, full-featured toolkit composed of six key modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object Generation, Scene Generation and Layout Generation. EmbodiedGen generates diverse and interactive 3D worlds composed of generative 3D assets, leveraging generative AI to address the challenges of generalization and evaluation to the needs of embodied intelligence related research. Code is available at https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.

arxiv情報

著者 Xinjie Wang,Liu Liu,Yu Cao,Ruiqi Wu,Wenkang Qin,Dehui Wang,Wei Sui,Zhizhong Su
発行日 2025-06-16 08:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence はコメントを受け付けていません

Open-Set LiDAR Panoptic Segmentation Guided by Uncertainty-Aware Learning

要約

オープンワールド環境でナビゲートする自動運転車は、以前に見えなかったオブジェクトクラスに遭遇する可能性があります。
ただし、ほとんどの既存のLIDARパノプティックセグメンテーションモデルは、閉鎖された仮定に依存しており、未知のオブジェクトインスタンスを検出できません。
この作業では、Dirichletベースの証拠学習を活用して予測的な不確実性をモデル化する不確実性のオープンセットパノプティックセグメンテーションフレームワークであるUlopsを提案します。
当社のアーキテクチャには、セマンティックセグメンテーションのために、不確実性の推定、プロトタイプ関連、およびインスタンスセンター予測に埋め込まれた個別のデコーダーが組み込まれています。
推論中、不確実性の推定値を活用して、不明なインスタンスを識別およびセグメント化します。
既知のオブジェクトと未知のオブジェクトを区別するモデルの能力を強化するために、3つの不確実性駆動型の損失関数を導入します。
未知の地域での高い不確実性を促進するための均一な証拠の損失。
適応不確実性分離損失により、世界規模での既知のオブジェクトと未知のオブジェクトの間の不確実性の推定値の一貫した違いが保証されます。
対照的な不確実性の損失は、この分離をきめんゆかレベルで改良します。
オープンセットのパフォーマンスを評価するために、Kitti-360のベンチマーク設定を拡張し、ヌスケンの新しいオープンセット評価を導入します。
広範な実験は、Ulopsが既存のオープンセットのLidarパノプティックセグメンテーション方法よりも常に優れていることを示しています。

要約(オリジナル)

Autonomous vehicles that navigate in open-world environments may encounter previously unseen object classes. However, most existing LiDAR panoptic segmentation models rely on closed-set assumptions, failing to detect unknown object instances. In this work, we propose ULOPS, an uncertainty-guided open-set panoptic segmentation framework that leverages Dirichlet-based evidential learning to model predictive uncertainty. Our architecture incorporates separate decoders for semantic segmentation with uncertainty estimation, embedding with prototype association, and instance center prediction. During inference, we leverage uncertainty estimates to identify and segment unknown instances. To strengthen the model’s ability to differentiate between known and unknown objects, we introduce three uncertainty-driven loss functions. Uniform Evidence Loss to encourage high uncertainty in unknown regions. Adaptive Uncertainty Separation Loss ensures a consistent difference in uncertainty estimates between known and unknown objects at a global scale. Contrastive Uncertainty Loss refines this separation at the fine-grained level. To evaluate open-set performance, we extend benchmark settings on KITTI-360 and introduce a new open-set evaluation for nuScenes. Extensive experiments demonstrate that ULOPS consistently outperforms existing open-set LiDAR panoptic segmentation methods.

arxiv情報

著者 Rohit Mohan,Julia Hindel,Florian Drews,Claudius Gläser,Daniele Cattaneo,Abhinav Valada
発行日 2025-06-16 09:03:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Open-Set LiDAR Panoptic Segmentation Guided by Uncertainty-Aware Learning はコメントを受け付けていません

BiFold: Bimanual Cloth Folding with Language Guidance

要約

布の折りたたみは、衣服の避けられない自己閉鎖、複雑なダイナミクス、衣服が持つことができる異なる素材、幾何学、テクスチャーのために、複雑な作業です。
この作業では、テキストコマンドに条件付けられた折り畳みアクションを学びます。
高レベルの抽象的な指示を正確なロボットアクションに変換するには、洗練された言語の理解と操作能力が必要です。
そのために、事前に訓練されたビジョン言語モデルを活用し、それを再利用して操作アクションを予測します。
私たちのモデルであるBifoldは、コンテキストを考慮し、既存の言語条件付きの折りたたみ式ベンチマークで最先端のパフォーマンスを実現できます。
注釈付きの両手折りたたみデータの欠如に対処するために、自動的に解析されたアクションと言語並列命令を備えた新しいデータセットを導入し、テキストコンディショニングされた操作のより良い学習を可能にします。
Bifoldは、データセットで最高のパフォーマンスを達成し、新しい指示、衣服、環境への強力な一般化を示しています。

要約(オリジナル)

Cloth folding is a complex task due to the inevitable self-occlusions of clothes, their complicated dynamics, and the disparate materials, geometries, and textures that garments can have. In this work, we learn folding actions conditioned on text commands. Translating high-level, abstract instructions into precise robotic actions requires sophisticated language understanding and manipulation capabilities. To do that, we leverage a pre-trained vision-language model and repurpose it to predict manipulation actions. Our model, BiFold, can take context into account and achieves state-of-the-art performance on an existing language-conditioned folding benchmark. To address the lack of annotated bimanual folding data, we introduce a novel dataset with automatically parsed actions and language-aligned instructions, enabling better learning of text-conditioned manipulation. BiFold attains the best performance on our dataset and demonstrates strong generalization to new instructions, garments, and environments.

arxiv情報

著者 Oriol Barbany,Adrià Colomé,Carme Torras
発行日 2025-06-16 09:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | BiFold: Bimanual Cloth Folding with Language Guidance はコメントを受け付けていません