RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification

要約

このホワイトペーパーでは、RFUAVを無線周波ベース(RFベース)無人航空機(UAV)の識別のための新しいベンチマークデータセットとして提案し、次の課題に対処します。最初に、多くの既存のデータセットは、制限された多様なドローンタイプと、実際の応用の要求を満たすことができない生データの量が制限されています。
第二に、既存のデータセットには、広範囲の信号対雑音比(SNR)をカバーする生データが欠けていることが多い、またはRAWデータを異なるSNRレベルに変換するためのツールを提供しません。
この制限は、モデルトレーニングと評価の妥当性を損ないます。
最後に、多くの既存のデータセットはオープンアクセス評価ツールを提供しておらず、この分野での現在の研究で統一された評価基準が不足しています。
RFUAVは、実際の環境でユニバーサルソフトウェアラジオ周辺(USRP)デバイスを使用して、37個の異なるUAVから収集された約1.3 Tbの生の周波数データで構成されています。
RFUAVのRFデータの詳細な分析により、ドローン信号を区別するのに役立つRFドローンフィンガープリントと呼ばれるドローン機能シーケンスを定義します。
データセットに加えて、RFUAVはベースライン前処理方法とモデル評価ツールを提供します。
厳密な実験は、これらの前処理方法が提供された評価ツールを使用して最先端(SOTA)パフォーマンスを実現することを示しています。
RFUAVデータセットとベースラインの実装は、https://github.com/kitoweeknd/rfuav/で公開されています。

要約(オリジナル)

In this paper, we propose RFUAV as a new benchmark dataset for radio-frequency based (RF-based) unmanned aerial vehicle (UAV) identification and address the following challenges: Firstly, many existing datasets feature a restricted variety of drone types and insufficient volumes of raw data, which fail to meet the demands of practical applications. Secondly, existing datasets often lack raw data covering a broad range of signal-to-noise ratios (SNR), or do not provide tools for transforming raw data to different SNR levels. This limitation undermines the validity of model training and evaluation. Lastly, many existing datasets do not offer open-access evaluation tools, leading to a lack of unified evaluation standards in current research within this field. RFUAV comprises approximately 1.3 TB of raw frequency data collected from 37 distinct UAVs using the Universal Software Radio Peripheral (USRP) device in real-world environments. Through in-depth analysis of the RF data in RFUAV, we define a drone feature sequence called RF drone fingerprint, which aids in distinguishing drone signals. In addition to the dataset, RFUAV provides a baseline preprocessing method and model evaluation tools. Rigorous experiments demonstrate that these preprocessing methods achieve state-of-the-art (SOTA) performance using the provided evaluation tools. The RFUAV dataset and baseline implementation are publicly available at https://github.com/kitoweeknd/RFUAV/.

arxiv情報

著者 Rui Shi,Xiaodong Yu,Shengming Wang,Yijia Zhang,Lu Xu,Peng Pan,Chunlai Ma
発行日 2025-03-12 03:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification はコメントを受け付けていません

ManeuverGPT Agentic Control for Safe Autonomous Stunt Maneuvers

要約

自動運転車の次世代のアクティブな安全機能は、車両のハンドリングの限界で高能力の動きを達成するために、プロのスタントドライバーが実行したものと同様の回避的なハザード回避策を安全に実行できる必要があります。
このペーパーでは、コントローラーとして大規模な言語モデル(LLM)ベースのエージェントを使用して自動運転車で高ダイナミックスタント操作を生成および実行するための新しいフレームワークであるManeuvergptを紹介します。
Jターンなどの積極的な操作は、カーラシミュレーション環境内でターゲットをターゲットにし、モデルの重みを再調整せずにタブララサを開始するための反復的で迅速なアプローチを実証します。
3つの専門的なエージェント(1)ユーザーコマンドをコンテキスト化するためのクエリエンチャーエージェント、(2)操作パラメーターを生成するためのドライバーエージェント、および(3)物理学ベースと安全性の制約を強化するパラメーター有効化エージェントで構成されるエージェントアーキテクチャを提案します。
実験結果は、異なる車両のダイナミクスに適応するテキストプロンプトを介して、複数の車両モデル間でのJターン実行の成功を示しています。
確立された成功基準を介してパフォーマンスを評価し、数値の精度とシナリオの複雑さに関する制限を議論します。
私たちの調査結果は、言語ベースの推論とアルゴリズム検証を組み合わせたハイブリッドアプローチの重要性を強調しながら、LLM駆動型制御の柔軟で高陽性の操作の可能性を強調しています。

要約(オリジナル)

The next generation of active safety features in autonomous vehicles should be capable of safely executing evasive hazard-avoidance maneuvers akin to those performed by professional stunt drivers to achieve high-agility motion at the limits of vehicle handling. This paper presents a novel framework, ManeuverGPT, for generating and executing high-dynamic stunt maneuvers in autonomous vehicles using large language model (LLM)-based agents as controllers. We target aggressive maneuvers, such as J-turns, within the CARLA simulation environment and demonstrate an iterative, prompt-based approach to refine vehicle control parameters, starting tabula rasa without retraining model weights. We propose an agentic architecture comprised of three specialized agents (1) a Query Enricher Agent for contextualizing user commands, (2) a Driver Agent for generating maneuver parameters, and (3) a Parameter Validator Agent that enforces physics-based and safety constraints. Experimental results demonstrate successful J-turn execution across multiple vehicle models through textual prompts that adapt to differing vehicle dynamics. We evaluate performance via established success criteria and discuss limitations regarding numeric precision and scenario complexity. Our findings underscore the potential of LLM-driven control for flexible, high-dynamic maneuvers, while highlighting the importance of hybrid approaches that combine language-based reasoning with algorithmic validation.

arxiv情報

著者 Shawn Azdam,Pranav Doma,Aliasghar Moj Arab
発行日 2025-03-12 03:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | ManeuverGPT Agentic Control for Safe Autonomous Stunt Maneuvers はコメントを受け付けていません

Motion Blender Gaussian Splatting for Dynamic Reconstruction

要約

Gaussian Spluttingは、動的なシーンの高忠実度再構築のための強力なツールとして浮上しています。
ただし、既存の方法は、主にニューラルネットワークへの動きをエンコードするなど、暗黙の運動表現やガウスごとのパラメーターに依存しているため、再構築された動きをさらに操作することが困難になります。
この明示的な制御可能性の欠如は、既存の方法を記録された動きのみを再生するために制限し、より広いアプリケーションを妨げます。
これに対処するために、モーショングラフを明示的でまばらなモーション表現として使用する新しいフレームワークであるモーションブレンダーガウススプラッティング(MB-GS)を提案します。
グラフリンクの動きは、デュアルQuaternionのスキニングを介して個々のガウスに伝播され、学習可能な重量塗装機能が各リンクの影響を決定します。
モーショングラフと3Dガウスは、微分可能なレンダリングを介して入力ビデオから共同で最適化されています。
実験では、MB-GSがiPhoneデータセットで最先端のパフォーマンスを達成しながら、Hypernerfで競争力があることが示されています。
さらに、モーション編集を通じて新しいオブジェクトの動きとロボットのデモンストレーションを生成する方法のアプリケーションの可能性を示します。
ビデオデモンストレーションは、https://mlzxy.github.io/mbgsにあります。

要約(オリジナル)

Gaussian splatting has emerged as a powerful tool for high-fidelity reconstruction of dynamic scenes. However, existing methods primarily rely on implicit motion representations, such as encoding motions into neural networks or per-Gaussian parameters, which makes it difficult to further manipulate the reconstructed motions. This lack of explicit controllability limits existing methods to replaying recorded motions only, which hinders a wider application. To address this, we propose Motion Blender Gaussian Splatting (MB-GS), a novel framework that uses motion graph as an explicit and sparse motion representation. The motion of graph links is propagated to individual Gaussians via dual quaternion skinning, with learnable weight painting functions determining the influence of each link. The motion graphs and 3D Gaussians are jointly optimized from input videos via differentiable rendering. Experiments show that MB-GS achieves state-of-the-art performance on the iPhone dataset while being competitive on HyperNeRF. Additionally, we demonstrate the application potential of our method in generating novel object motions and robot demonstrations through motion editing. Video demonstrations can be found at https://mlzxy.github.io/mbgs.

arxiv情報

著者 Xinyu Zhang,Haonan Chang,Yuhan Liu,Abdeslam Boularias
発行日 2025-03-12 03:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Motion Blender Gaussian Splatting for Dynamic Reconstruction はコメントを受け付けていません

MAC-VO: Metrics-aware Covariance for Learning-based Stereo Visual Odometry

要約

私たちは、デュアル目的で学習されたメトリックに対応するマッチングの不確実性を活用する新しい学習ベースのステレオVOであるMAC-VOを提案します:キーポイントの選択とポーズグラフ最適化の残差の計量。
エッジなどのテクスチャアフルエント機能を優先する従来の幾何学的方法と比較して、キーポイントセレクターは、学習した不確実性を採用して、グローバルな矛盾に基づいて低品質の機能を除外します。
共分散用のスケールに依存しない対角線重量マトリックスをモデル化する学習ベースのアルゴリズムとは対照的に、キーポイント登録中の空間誤差と異なる軸間の相関をキャプチャするメトリックを意識した共分散モデルを設計します。
この共分散モデルをポーズグラフの最適化に統合すると、特にさまざまな照明、特徴密度、およびモーションパターンを備えた挑戦的な環境で、ポーズ推定の堅牢性と信頼性が向上します。
パブリックベンチマークデータセットでは、Mac-Voは既存のVoアルゴリズムや、挑戦的な環境でのスラムアルゴリズムを上回ります。
共分散マップは、自律システムの意思決定に役立つ可能性のある推定ポーズの信頼性に関する貴重な情報も提供します。

要約(オリジナル)

We propose the MAC-VO, a novel learning-based stereo VO that leverages the learned metrics-aware matching uncertainty for dual purposes: selecting keypoint and weighing the residual in pose graph optimization. Compared to traditional geometric methods prioritizing texture-affluent features like edges, our keypoint selector employs the learned uncertainty to filter out the low-quality features based on global inconsistency. In contrast to the learning-based algorithms that model the scale-agnostic diagonal weight matrix for covariance, we design a metrics-aware covariance model to capture the spatial error during keypoint registration and the correlations between different axes. Integrating this covariance model into pose graph optimization enhances the robustness and reliability of pose estimation, particularly in challenging environments with varying illumination, feature density, and motion patterns. On public benchmark datasets, MAC-VO outperforms existing VO algorithms and even some SLAM algorithms in challenging environments. The covariance map also provides valuable information about the reliability of the estimated poses, which can benefit decision-making for autonomous systems.

arxiv情報

著者 Yuheng Qiu,Yutian Chen,Zihao Zhang,Wenshan Wang,Sebastian Scherer
発行日 2025-03-12 04:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MAC-VO: Metrics-aware Covariance for Learning-based Stereo Visual Odometry はコメントを受け付けていません

Input-Output Feedback Linearization Preserving Task Priority for Multivariate Nonlinear Systems Having Singular Input Gain Matrix

要約

入出力フィードバック線形化の拡張を提案します。これは、古典的な方法でリニアレイズできない多変量システムのクラスのクラスです。
重要な観察結果は、通常の入出力線形化問題は、入力ゲインマトリックスに関連する同時線形方程式を解く問題として解釈できることです。したがって、入力ゲインマトリックスが特異になるポイントでさえ、線形方程式の一部を解くことができます。
この観察に基づいて、入出力線形化問題にタスクの優先順位ベースのアプローチを採用します。
まず、古典的なバーンズ – イジドリ形式を、より低優先度のタスクに関連する入力ゲインマトリックスのサブブロックの特異性が、より優先度の高いタスクに直接伝播しないように、古典的なバーンズ・イジドリ形式を優先順位のある通常の形式に一般化します。
次に、辞書編成順序を介した多目的最適化を介して優先順位付けされた入出力線形化を提示し、より高い優先度のあるサブセットが線形または線形に近い入力出力関係を確立する優先順位付けされた半線形形式になります。
最後に、特に提案された優先順位付けされた入出力線形化が出力追跡問題に適用される場合、最終的な境界とタスクの達成に関するリアプノフ分析が提供されます。
この作業では、重要なものよりも優先度を割り当てることにより、重要かつ非批判的な制御の問題を備えた複雑なシステムの新しい制御フレームワークを紹介します。

要約(オリジナル)

We propose an extension of the input-output feedback linearization for a class of multivariate systems that are not input-output linearizable in a classical manner. The key observation is that the usual input-output linearization problem can be interpreted as the problem of solving simultaneous linear equations associated with the input gain matrix: thus, even at points where the input gain matrix becomes singular, it is still possible to solve a part of linear equations, by which a subset of input-output relations is made linear or close to be linear. Based on this observation, we adopt the task priority-based approach in the input-output linearization problem. First, we generalize the classical Byrnes-Isidori normal form to a prioritized normal form having a triangular structure, so that the singularity of a subblock of the input gain matrix related to lower-priority tasks does not directly propagate to higher-priority tasks. Next, we present a prioritized input-output linearization via the multi-objective optimization with the lexicographical ordering, resulting in a prioritized semilinear form that establishes input output relations whose subset with higher priority is linear or close to be linear. Finally, Lyapunov analysis on ultimate boundedness and task achievement is provided, particularly when the proposed prioritized input-output linearization is applied to the output tracking problem. This work introduces a new control framework for complex systems having critical and noncritical control issues, by assigning higher priority to the critical ones.

arxiv情報

著者 Sang-ik An,Dongheui Lee,Gyunghoon Park
発行日 2025-03-12 04:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Input-Output Feedback Linearization Preserving Task Priority for Multivariate Nonlinear Systems Having Singular Input Gain Matrix はコメントを受け付けていません

Sequential Multi-Object Grasping with One Dexterous Hand

要約

マルチピンガーの手で複数のオブジェクトを連続的に把握することは、人間が手の器用さを完全に活用して複数のオブジェクトを囲むことができる日常生活で一般的です。
ただし、オブジェクトのジオメトリの多様性と、高度の手に必要な複雑な接触相互作用は、別のオブジェクトを囲みながら1つのオブジェクトを把握しながら、ロボットに挑戦するシーケンシャルなマルチオブジェクトグラップを把握します。
この論文では、4本指のアレグロ手でオブジェクトを連続的に把握するためのシステムであるSeqmultigraspを提案します。
2つのオブジェクトを順次把握し、手が1つのオブジェクトを完全に囲んでから持ち上げてから、最初のオブジェクトをドロップせずに2番目のオブジェクトをつかむことに焦点を当てます。
私たちのシステムは、最初にシングルオブジェクトの把握候補を合成します。そこでは、各把握は、手のリンクのサブセットのみを使用するように制約されます。
これらのグラスクは、物理シミュレーターで検証され、安定性と実現可能性を確保します。
次に、検証済みの単一オブジェクトの把握ポーズをマージして、マルチオブジェクトの把持構成を構築します。
現実世界の展開のために、ポイントクラウドを条件とする拡散モデルを訓練して、把握ポーズを提案し、それに続いてヒューリスティックベースの実行戦略を提案します。
シミュレーションの8ドルの時間8ドルのオブジェクトの組み合わせと、実際に$ 6 \ times 3 $オブジェクトの組み合わせを使用して、システムをテストします。
拡散ベースのGraspモデルは、1600のシミュレーション試験で65.8%の平均成功率と90の実世界の試験で56.7%を獲得し、マルチフィンガーの手での連続的なマルチオブジェクトグラストの有望なアプローチであることを示唆しています。
補足資料は、当社のプロジェクトWebサイトhttps://hesic73.github.io/seqmultigraspで入手できます。

要約(オリジナル)

Sequentially grasping multiple objects with multi-fingered hands is common in daily life, where humans can fully leverage the dexterity of their hands to enclose multiple objects. However, the diversity of object geometries and the complex contact interactions required for high-DOF hands to grasp one object while enclosing another make sequential multi-object grasping challenging for robots. In this paper, we propose SeqMultiGrasp, a system for sequentially grasping objects with a four-fingered Allegro Hand. We focus on sequentially grasping two objects, ensuring that the hand fully encloses one object before lifting it and then grasps the second object without dropping the first. Our system first synthesizes single-object grasp candidates, where each grasp is constrained to use only a subset of the hand’s links. These grasps are then validated in a physics simulator to ensure stability and feasibility. Next, we merge the validated single-object grasp poses to construct multi-object grasp configurations. For real-world deployment, we train a diffusion model conditioned on point clouds to propose grasp poses, followed by a heuristic-based execution strategy. We test our system using $8 \times 8$ object combinations in simulation and $6 \times 3$ object combinations in real. Our diffusion-based grasp model obtains an average success rate of 65.8% over 1600 simulation trials and 56.7% over 90 real-world trials, suggesting that it is a promising approach for sequential multi-object grasping with multi-fingered hands. Supplementary material is available on our project website: https://hesic73.github.io/SeqMultiGrasp.

arxiv情報

著者 Sicheng He,Zeyu Shangguan,Kuanning Wang,Yongchong Gu,Yuqian Fu,Yanwei Fu,Daniel Seita
発行日 2025-03-12 05:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Sequential Multi-Object Grasping with One Dexterous Hand はコメントを受け付けていません

Tacchi 2.0: A Low Computational Cost and Comprehensive Dynamic Contact Simulator for Vision-based Tactile Sensors

要約

ロボット技術の開発により、ビジョンベースのセンサーなどの一部の触覚センサーが接触豊富なロボットタスクに適用されています。
ただし、視覚ベースの触覚センサーの耐久性により、触覚情報の習得のコストが大幅に増加します。
シミュレーションを利用して触覚データを生成することは、この問題に対処するための信頼できるアプローチとして浮上しています。
触覚データ生成のためのデータ駆動型の方法は堅牢性を欠いていますが、有限要素法(FEM)ベースのアプローチには、かなりの計算コストが必要です。
これらの問題に対処するために、ピンホールカメラモデルを、シミュレートされた方法としてマテリアルポイントメソッド(MPM)を使用した低い計算コストビジョンベースの触覚シミュレーターTacchiに統合し、マーカーモーション画像のシミュレーションを完了しました。
Tacchiをアップグレードし、Tacchi 2.0を導入しました。
このシミュレーターは、プレス、スリップ、回転などのさまざまなモーション状態の下で、触覚画像、マークされたモーション画像、および共同画像をシミュレートできます。
実験結果は、さまざまな視覚ベースの触覚センサーにわたる方法の信頼性とその堅牢性を示しています。

要約(オリジナル)

With the development of robotics technology, some tactile sensors, such as vision-based sensors, have been applied to contact-rich robotics tasks. However, the durability of vision-based tactile sensors significantly increases the cost of tactile information acquisition. Utilizing simulation to generate tactile data has emerged as a reliable approach to address this issue. While data-driven methods for tactile data generation lack robustness, finite element methods (FEM) based approaches require significant computational costs. To address these issues, we integrated a pinhole camera model into the low computational cost vision-based tactile simulator Tacchi that used the Material Point Method (MPM) as the simulated method, completing the simulation of marker motion images. We upgraded Tacchi and introduced Tacchi 2.0. This simulator can simulate tactile images, marked motion images, and joint images under different motion states like pressing, slipping, and rotating. Experimental results demonstrate the reliability of our method and its robustness across various vision-based tactile sensors.

arxiv情報

著者 Yuhao Sun,Shixin Zhang,Wenzhuang Li,Jie Zhao,Jianhua Shan,Zirong Shen,Zixi Chen,Fuchun Sun,Di Guo,Bin Fang
発行日 2025-03-12 06:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Tacchi 2.0: A Low Computational Cost and Comprehensive Dynamic Contact Simulator for Vision-based Tactile Sensors はコメントを受け付けていません

Predictor-Based Time Delay Control of A Hex-Jet Unmanned Aerial Vehicle

要約

ターボジェット駆動のVTOL UAVは、既存の電子推進システムと比較して、優れた出力密度と推力と重量の比率により、重荷輸送および緊急サービスに注目が高まっています。
ジェット式のUAVを使用した主な課題は、ターボジェットのゆっくりしたダイナミクスを緩和することを目的とした、スラストベクター化機械システムの複雑さにあります。
この手紙では、Hex-Jetという名前の新しいターボジェット駆動のUAVプラットフォームを紹介します。
私たちのコンセプトは、包括的な態度制御のために、推力ベクトル化と差別的な推力を統合します。
このアプローチは、スラストベクトル化メカニズムを特に簡素化します。
HEX-JETコントローラー設計の周波数ドメインモデルに基づいた予測因子ベースの時間遅延制御方法を利用して、ターボジェットダイナミクスによって引き起こされるロール姿勢制御の遅延を軽減します。
私たちの比較研究は、UAVコミュニティに貴重な洞察を提供し、スケーリングされたプロトタイプの飛行テストは、提案された予測因子ベースの時間遅延制御技術の実装と検証の成功を示しています。

要約(オリジナル)

Turbojet-powered VTOL UAVs have garnered increased attention in heavy-load transport and emergency services, due to their superior power density and thrust-to-weight ratio compared to existing electronic propulsion systems. The main challenge with jet-powered UAVs lies in the complexity of thrust vectoring mechanical systems, which aim to mitigate the slow dynamics of the turbojet. In this letter, we introduce a novel turbojet-powered UAV platform named Hex-Jet. Our concept integrates thrust vectoring and differential thrust for comprehensive attitude control. This approach notably simplifies the thrust vectoring mechanism. We utilize a predictor-based time delay control method based on the frequency domain model in our Hex-Jet controller design to mitigate the delay in roll attitude control caused by turbojet dynamics. Our comparative studies provide valuable insights for the UAV community, and flight tests on the scaled prototype demonstrate the successful implementation and verification of the proposed predictor-based time delay control technique.

arxiv情報

著者 Junning Liang,Haowen Zheng,Yuying Zhang,Yongzhuo Gao,Wei Dong,Ximin Lyu
発行日 2025-03-12 08:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Predictor-Based Time Delay Control of A Hex-Jet Unmanned Aerial Vehicle はコメントを受け付けていません

Long-Term Planning Around Humans in Domestic Environments with 3D Scene Graphs

要約

国内環境で動作するロボットの長期計画は、人間、オブジェクト、スペースの間の相互作用のために独自の課題をもたらします。
軌道計画の最近の進歩により、視覚言語モデル(VLM)を活用して、実際の環境で動作するロボットのコンテキスト情報を抽出しました。
これらの方法は満足のいくパフォーマンスを実現しますが、人間の活動を明示的にモデル化しません。
このようなアクティビティは、周囲のオブジェクトに影響を与え、空間的制約を再構築します。
このペーパーでは、濃縮された3Dシーングラフ(3DSG)表現を介して、人間の好み、活動、空間コンテキストを統合する軌道計画に対する新しいアプローチを提示します。
アクティビティベースの関係を組み込むことにより、私たちの方法は人間の行動の空間的影響を捉え、よりコンテキストに敏感な軌跡の適応につながります。
予備的な結果は、私たちのアプローチが人間の活動の影響を受けたスペースにコストを効果的に割り当て、ロボットの軌跡が進行中の環境に文脈的に適切で敏感なままであることを保証することを示しています。
タスクの効率と社会的適切性のこのバランスは、国内の設定でのコンテキストを意識した人間とロボットの相互作用を促進します。
将来の作業には、完全な計画パイプラインの実装と、軌道の受容性を評価するためのユーザー調査の実施が含まれます。

要約(オリジナル)

Long-term planning for robots operating in domestic environments poses unique challenges due to the interactions between humans, objects, and spaces. Recent advancements in trajectory planning have leveraged vision-language models (VLMs) to extract contextual information for robots operating in real-world environments. While these methods achieve satisfying performance, they do not explicitly model human activities. Such activities influence surrounding objects and reshape spatial constraints. This paper presents a novel approach to trajectory planning that integrates human preferences, activities, and spatial context through an enriched 3D scene graph (3DSG) representation. By incorporating activity-based relationships, our method captures the spatial impact of human actions, leading to more context-sensitive trajectory adaptation. Preliminary results demonstrate that our approach effectively assigns costs to spaces influenced by human activities, ensuring that the robot trajectory remains contextually appropriate and sensitive to the ongoing environment. This balance between task efficiency and social appropriateness enhances context-aware human-robot interactions in domestic settings. Future work includes implementing a full planning pipeline and conducting user studies to evaluate trajectory acceptability.

arxiv情報

著者 Ermanno Bartoli,Dennis Rotondi,Kai O. Arras,Iolanda Leite
発行日 2025-03-12 09:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.RO, I.2 | Long-Term Planning Around Humans in Domestic Environments with 3D Scene Graphs はコメントを受け付けていません

Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework

要約

バイマニュアルロボット操作は、ロボットコミュニティで新たに重要なトピックです。
以前の作品は、主に、両方のアームの認識と状態を入力として取得する統合制御モデルに依存して、そのアクションを直接予測しています。
ただし、双方向の操作には、調整されたタスクだけでなく、実行中に明示的な協力を必要としないさまざまな協調的なタスクも含まれます。
この論文では、両操作におけるさまざまなタスクの特性を考慮する新しい分離された相互作用フレームワークを提案します。
私たちのフレームワークの重要な洞察は、独立したモデルを各アームに割り当てて、調整されていないタスクの学習を強化すると同時に、独自の腕から体重を適応的に学習して調整されたタスクの学習を改善する選択的相互作用モジュールを導入することです。
RobotWinデータセットの7つのタスクに関する広範な実験は、次のことを示しています。(1)SOTAメソッドを23.5%増加させて、フレームワークが優れたパフォーマンスを達成します。
(2)私たちのフレームワークは柔軟であり、既存の方法にシームレスに統合できます。
(3)当社のフレームワークは、マルチエージェント操作タスクに効果的に拡張でき、統合されたコントロールSOTAを28%増加させることができます。
(4)パフォーマンスブーストは、デカップされたデザイン自体に由来し、ソタを16.5%上回り、モデルサイズの1/6のみを超えています。

要約(オリジナル)

Bimanual robotic manipulation is an emerging and critical topic in the robotics community. Previous works primarily rely on integrated control models that take the perceptions and states of both arms as inputs to directly predict their actions. However, we think bimanual manipulation involves not only coordinated tasks but also various uncoordinated tasks that do not require explicit cooperation during execution, such as grasping objects with the closest hand, which integrated control frameworks ignore to consider due to their enforced cooperation in the early inputs. In this paper, we propose a novel decoupled interaction framework that considers the characteristics of different tasks in bimanual manipulation. The key insight of our framework is to assign an independent model to each arm to enhance the learning of uncoordinated tasks, while introducing a selective interaction module that adaptively learns weights from its own arm to improve the learning of coordinated tasks. Extensive experiments on seven tasks in the RoboTwin dataset demonstrate that: (1) Our framework achieves outstanding performance, with a 23.5% boost over the SOTA method. (2) Our framework is flexible and can be seamlessly integrated into existing methods. (3) Our framework can be effectively extended to multi-agent manipulation tasks, achieving a 28% boost over the integrated control SOTA. (4) The performance boost stems from the decoupled design itself, surpassing the SOTA by 16.5% in success rate with only 1/6 of the model size.

arxiv情報

著者 Jian-Jian Jiang,Xiao-Ming Wu,Yi-Xiang He,Ling-An Zeng,Yi-Lin Wei,Dandan Zhang,Wei-Shi Zheng
発行日 2025-03-12 09:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework はコメントを受け付けていません