YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework

要約

複数のバンドからの情報を統合するマルチスペクトルオブジェクトの検出は、検出の精度と環境適応性を高め、さまざまな分野にわたって優れたアプリケーションの可能性を保持できます。
既存の方法では、クロスモーダルの相互作用、低光条件、モデルの軽量が進歩していますが、統一された単一ステージフレームワークの欠如、パフォーマンスと融合戦略のバランスの困難、不合理なモダリティ重量割り当てなどの課題がまだあります。
Yolov11フレームワークに基づいてこれらに対処するために、新しい包括的なマルチモーダルオブジェクト検出フレームワークであるYolov11-RGBTを提示します。
6つのマルチスペクトル融合モードを設計し、Yolov3からYolov12およびRT-Detrへのモデルに正常に適用しました。
2つのモダリティの重要性を再評価した後、マルチスペクトルモデルのP3ミッドフュージョン戦略とマルチスペクトル制御可能な微調整(MCF)戦略を提案しました。
これらの改善により、特徴の融合が最適化され、冗長性と不一致を減らし、全体的なモデルのパフォーマンスを向上させます。
実験では、LLVIPやFLIRなどの3つの主要なオープンソースマルチスペクトルオブジェクト検出データセットに優れていることが示されています。
特に、マルチスペクトル制御可能な微調整戦略により、モデルの適応性と堅牢性が大幅に向上しました。
FLIRデータセットでは、Yolov11モデルのマップが3.41%-5.65%で一貫して改善され、最大47.61%に達し、フレームワークと戦略の有効性が検証されました。
このコードは、https://github.com/wandahangfy/yolov11-rgbtで入手できます。

要約(オリジナル)

Multispectral object detection, which integrates information from multiple bands, can enhance detection accuracy and environmental adaptability, holding great application potential across various fields. Although existing methods have made progress in cross-modal interaction, low-light conditions, and model lightweight, there are still challenges like the lack of a unified single-stage framework, difficulty in balancing performance and fusion strategy, and unreasonable modality weight allocation. To address these, based on the YOLOv11 framework, we present YOLOv11-RGBT, a new comprehensive multimodal object detection framework. We designed six multispectral fusion modes and successfully applied them to models from YOLOv3 to YOLOv12 and RT-DETR. After reevaluating the importance of the two modalities, we proposed a P3 mid-fusion strategy and multispectral controllable fine-tuning (MCF) strategy for multispectral models. These improvements optimize feature fusion, reduce redundancy and mismatches, and boost overall model performance. Experiments show our framework excels on three major open-source multispectral object detection datasets, like LLVIP and FLIR. Particularly, the multispectral controllable fine-tuning strategy significantly enhanced model adaptability and robustness. On the FLIR dataset, it consistently improved YOLOv11 models’ mAP by 3.41%-5.65%, reaching a maximum of 47.61%, verifying the framework and strategies’ effectiveness. The code is available at: https://github.com/wandahangFY/YOLOv11-RGBT.

arxiv情報

著者 Dahang Wan,Rongsheng Lu,Yang Fang,Xianli Lang,Shuangbao Shu,Jingjing Chen,Siyuan Shen,Ting Xu,Zecong Ye
発行日 2025-06-18 13:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework はコメントを受け付けていません

Lasso Gripper: A String Shooting-Retracting Mechanism for Shape-Adaptive Grasping

要約

主にグリッパーの形状とサイズの制限のために、輸送の大きさ、可変形状、または繊細なオブジェクトを把握することは非常に困難です。
このペーパーでは、小説グリッパー、ラッソグリッパーを提案しています。
LassoやUurgaなどの伝統的なツールに触発されたLasso Gripperは、ストリングを起動および撤回することでオブジェクトをキャプチャします。
限られた領域に力を集中させる反極性グリッパーに反して、ラッソグリッパーは、より穏やかな把握のために、弦の長さに沿って均一な圧力をかけます。
グリッパーは、ストリングを内側に起動するために4つのモーター2で制御され、2つは外側に起動するために2つを制御します。
モーター速度を調整することにより、さまざまなサイズのオブジェクトに対応するために弦ループのサイズを調整し、最大グリッパーの分離距離によって課される制限を排除できます。
迅速な撤回中に弦楽ングの問題に対処するために、特殊なメカニズムが組み込まれました。
さらに、ストリングの曲線を推定するための動的モデルが開発され、ワー​​クスペースの運動学的分析の基礎を提供しました。
把握実験では、ロボットの腕に取り付けられたラッソグリッパーは、雄牛や馬の姿、繊細な野菜など、さまざまなオブジェクトをキャプチャして輸送しました。
デモビデオは、https://youtu.be/pv1j76mnp9yで入手できます。

要約(オリジナル)

Handling oversized, variable-shaped, or delicate objects in transportation, grasping tasks is extremely challenging, mainly due to the limitations of the gripper’s shape and size. This paper proposes a novel gripper, Lasso Gripper. Inspired by traditional tools like the lasso and the uurga, Lasso Gripper captures objects by launching and retracting a string. Contrary to antipodal grippers, which concentrate force on a limited area, Lasso Gripper applies uniform pressure along the length of the string for a more gentle grasp. The gripper is controlled by four motors-two for launching the string inward and two for launching it outward. By adjusting motor speeds, the size of the string loop can be tuned to accommodate objects of varying sizes, eliminating the limitations imposed by the maximum gripper separation distance. To address the issue of string tangling during rapid retraction, a specialized mechanism was incorporated. Additionally, a dynamic model was developed to estimate the string’s curve, providing a foundation for the kinematic analysis of the workspace. In grasping experiments, Lasso Gripper, mounted on a robotic arm, successfully captured and transported a range of objects, including bull and horse figures as well as delicate vegetables. The demonstration video is available here: https://youtu.be/PV1J76mNP9Y.

arxiv情報

著者 Qiyuan Qiao,Yu Wang,Xiyu Fan,Peng Lu
発行日 2025-06-17 03:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Lasso Gripper: A String Shooting-Retracting Mechanism for Shape-Adaptive Grasping はコメントを受け付けていません

TACS-Graphs: Traversability-Aware Consistent Scene Graphs for Ground Robot Indoor Localization and Mapping

要約

シーングラフは、ロボットの強力なツールとして浮上しており、高度なタスク計画のための空間的および意味的関係の構造化された表現を提供しています。
その可能性にもかかわらず、従来の3D屋内シーングラフは、構造的に複雑な環境における室層の特に過剰および過度のセグメンテーションの重大な制限に直面しています。
セグメンテーション不足は、多くの場合オープンスペースで、部屋の一部として非移動不可能なエリアを誤分類しますが、過剰セグメンテーションは、複雑な環境で1つの部屋を重複するセグメントに断片化します。
これらの問題は、幾何学的な近接性のみに依存する素朴なボクセルベースのマップ表現に起因し、横断可能な空間の構造的制約を無視し、シーングラフ内の一貫性のない部屋層をもたらします。
私たちの知る限り、この作業は、挑戦としてセグメンテーションの矛盾に取り組み、トラバース可能性対応の一貫したシーングラフ(TACS-Graphs)で最初に取り組むことです。
ルームの境界を定義する重要な要因として通過性を活用することにより、提案された方法は、より意味的に意味のあるトポロジー的にコヒーレントなセグメンテーションを実現し、複雑な環境でのボクセルベースのシーングラフアプローチの不正確さを効果的に軽減します。
さらに、セグメンテーションの強化された一貫性により、提案された一貫したシーングラフレバレッジループ閉鎖検出(COSG-LCD)のループ閉鎖検出効率が改善され、より高いポーズ推定精度が発生します。
実験結果は、提案されたアプローチがシーングラフの一貫性の観点から最先端の方法よりも優れていることを確認し、グラフの最適化パフォーマンスをポーズします。

要約(オリジナル)

Scene graphs have emerged as a powerful tool for robots, providing a structured representation of spatial and semantic relationships for advanced task planning. Despite their potential, conventional 3D indoor scene graphs face critical limitations, particularly under- and over-segmentation of room layers in structurally complex environments. Under-segmentation misclassifies non-traversable areas as part of a room, often in open spaces, while over-segmentation fragments a single room into overlapping segments in complex environments. These issues stem from naive voxel-based map representations that rely solely on geometric proximity, disregarding the structural constraints of traversable spaces and resulting in inconsistent room layers within scene graphs. To the best of our knowledge, this work is the first to tackle segmentation inconsistency as a challenge and address it with Traversability-Aware Consistent Scene Graphs (TACS-Graphs), a novel framework that integrates ground robot traversability with room segmentation. By leveraging traversability as a key factor in defining room boundaries, the proposed method achieves a more semantically meaningful and topologically coherent segmentation, effectively mitigating the inaccuracies of voxel-based scene graph approaches in complex environments. Furthermore, the enhanced segmentation consistency improves loop closure detection efficiency in the proposed Consistent Scene Graph-leveraging Loop Closure Detection (CoSG-LCD) leading to higher pose estimation accuracy. Experimental results confirm that the proposed approach outperforms state-of-the-art methods in terms of scene graph consistency and pose graph optimization performance.

arxiv情報

著者 Jeewon Kim,Minho Oh,Hyun Myung
発行日 2025-06-17 04:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TACS-Graphs: Traversability-Aware Consistent Scene Graphs for Ground Robot Indoor Localization and Mapping はコメントを受け付けていません

Non-Overlap-Aware Egocentric Pose Estimation for Collaborative Perception in Connected Autonomy

要約

エゴセントリックポーズ推定は、接続された自律車両などの接続された自律性におけるマルチロボット共同認識の基本的な能力です。
マルチロボット操作中、ロボットは、独自の座標に関して、それ自体とそのチームメイトの間の相対的なポーズを知る必要があります。
ただし、異なるロボットは通常、同様のオブジェクトを含む完全に異なるビューを観察し、誤ったポーズの推定につながります。
さらに、ロボットが生の観察結果を共有して、通信帯域幅の制約が限られているためオーバーラップを検出できるようにすることは非現実的です。
このホワイトペーパーでは、非オーバーラップチームでエゴセントリックポーズ推定を実行しながら、非オーバーラップビューを特定し、通信帯域幅の制約を満たしながら、マルチロボットチームでエゴセントリックポーズ推定を実行する非オーバーラップ認識エゴセントリックポーズ推定(NOPE)の新しい方法を紹介します。
NOPEは、2つのレベルのロボット学習を統合する統合された階層学習フレームワークの上に構築されています。(1)2つのビューが重複しているかどうかを識別できる高レベルの深いグラフマッチング、(2)エゴセントリックポーズ推定のための低レベルの位置認識グラフ学習。
NOPEを評価するために、高忠実度のシミュレーションと現実世界のシナリオの両方で広範な実験を実施します。
実験結果は、NOPEが非重複するエゴセントリックポーズ推定の新しい能力を可能にし、既存の方法と比較して最先端のパフォーマンスを達成することを実証しています。
https://hongh0.github.io/nope/のプロジェクトページ。

要約(オリジナル)

Egocentric pose estimation is a fundamental capability for multi-robot collaborative perception in connected autonomy, such as connected autonomous vehicles. During multi-robot operations, a robot needs to know the relative pose between itself and its teammates with respect to its own coordinates. However, different robots usually observe completely different views that contains similar objects, which leads to wrong pose estimation. In addition, it is unrealistic to allow robots to share their raw observations to detect overlap due to the limited communication bandwidth constraint. In this paper, we introduce a novel method for Non-Overlap-Aware Egocentric Pose Estimation (NOPE), which performs egocentric pose estimation in a multi-robot team while identifying the non-overlap views and satifying the communication bandwidth constraint. NOPE is built upon an unified hierarchical learning framework that integrates two levels of robot learning: (1) high-level deep graph matching for correspondence identification, which allows to identify if two views are overlapping or not, (2) low-level position-aware cross-attention graph learning for egocentric pose estimation. To evaluate NOPE, we conduct extensive experiments in both high-fidelity simulation and real-world scenarios. Experimental results have demonstrated that NOPE enables the novel capability for non-overlapping-aware egocentric pose estimation and achieves state-of-art performance compared with the existing methods. Our project page at https://hongh0.github.io/NOPE/.

arxiv情報

著者 Hong Huang,Dongkuan Xu,Hao Zhang,Peng Gao
発行日 2025-06-17 04:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Non-Overlap-Aware Egocentric Pose Estimation for Collaborative Perception in Connected Autonomy はコメントを受け付けていません

Hard Contacts with Soft Gradients: Refining Differentiable Simulators for Learning and Control

要約

コンタクトフォースは、システムの速度にジャンプを導入する際に、ロボットダイナミクスのグラデーションベースの最適化に大きな課題をもたらします。
Mujocoなどのペナルティベースのシミュレーターは、接触力を軟化させることにより勾配計算を簡素化します。
ただし、ハードコンタクトを現実的にシミュレートするには、非常に硬い接点設定が必要であり、自動分化を使用するときに誤った勾配につながります。
一方、非極度の設定を使用すると、SIMからリアルのギャップが大幅に増加します。
ペナルティベースのシミュレータの連絡先計算を分析して、勾配エラーの原因を特定します。
次に、適応型統合とMujoco XLAを組み合わせたDiffMJXを提案し、ハードコンタクトの存在下で勾配の品質を顕著に向上させます。
最後に、連絡先の勾配の重要な制限に対処します。オブジェクトが触れないと消えます。
これを克服するために、シミュレーターがオブジェクトが接触する前であっても有益な接触勾配を生成できるメカニズムである距離(CFD)からの連絡先を導入します。
物理的なリアリズムを維持するために、ストレートスルートリックを使用してBackward PassでのみCFDを適用し、フォワードシミュレーションを変更せずに有用なグラデーションを計算できるようにします。

要約(オリジナル)

Contact forces pose a major challenge for gradient-based optimization of robot dynamics as they introduce jumps in the system’s velocities. Penalty-based simulators, such as MuJoCo, simplify gradient computation by softening the contact forces. However, realistically simulating hard contacts requires very stiff contact settings, which leads to incorrect gradients when using automatic differentiation. On the other hand, using non-stiff settings strongly increases the sim-to-real gap. We analyze the contact computation of penalty-based simulators to identify the causes of gradient errors. Then, we propose DiffMJX, which combines adaptive integration with MuJoCo XLA, to notably improve gradient quality in the presence of hard contacts. Finally, we address a key limitation of contact gradients: they vanish when objects do not touch. To overcome this, we introduce Contacts From Distance (CFD), a mechanism that enables the simulator to generate informative contact gradients even before objects are in contact. To preserve physical realism, we apply CFD only in the backward pass using a straight-through trick, allowing us to compute useful gradients without modifying the forward simulation.

arxiv情報

著者 Anselm Paulus,A. René Geist,Pierre Schumacher,Vít Musil,Georg Martius
発行日 2025-06-17 04:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, G.1.6 | Hard Contacts with Soft Gradients: Refining Differentiable Simulators for Learning and Control はコメントを受け付けていません

AMPLIFY: Actionless Motion Priors for Robot Learning from Videos

要約

ロボット工学のアクション標識データは不足して高価であり、学習ポリシーの一般化を制限しています。
対照的に、膨大な量のアクションフリーのビデオデータはすぐに利用できますが、これらの観察を効果的なポリシーに変換することは依然として課題です。
視覚的ダイナミクスをキーポイント軌道から派生したコンパクトで個別のモーショントークンにエンコードすることにより、大規模なビデオデータを活用する新しいフレームワークであるAmplifyを紹介します。
モジュラーアプローチは、視覚的なモーション予測とアクション推論から分離され、ロボットの実行方法からタスクを定義するモーションを学習する課題を分離します。
豊富なアクションのないビデオと、限られた一連のアクション標識例で逆ダイナミクスモデルでフォワードダイナミクスモデルをトレーニングし、独立したスケーリングを可能にします。
広範な評価は、学習したダイナミクスの両方が正確であり、最大3.7倍のMSEの優れたMSEと2.5倍の優れたピクセル予測の精度を達成し、以前のアプローチと比較して達成し、非常に有用であることを示しています。
ダウンストリームポリシー学習では、ダイナミクスの予測により、低データレジームの1.2〜2.2倍の改善、アクションフリーの人間のビデオから学習することにより、平均1.4倍の改善、およびゼロ分配アクションデータからのリベロタスクへの最初の一般化が可能になります。
ロボット制御を超えて、Amplifyによって学習されたダイナミクスは、多用途の潜在的な世界モデルであることがわかり、ビデオ予測の品質を高めています。
私たちの結果は、不均一なデータソースを活用する新しいパラダイムを提示して、効率的で一般化可能な世界モデルを構築します。
詳細については、https://amplify-robotics.github.io/をご覧ください。

要約(オリジナル)

Action-labeled data for robotics is scarce and expensive, limiting the generalization of learned policies. In contrast, vast amounts of action-free video data are readily available, but translating these observations into effective policies remains a challenge. We introduce AMPLIFY, a novel framework that leverages large-scale video data by encoding visual dynamics into compact, discrete motion tokens derived from keypoint trajectories. Our modular approach separates visual motion prediction from action inference, decoupling the challenges of learning what motion defines a task from how robots can perform it. We train a forward dynamics model on abundant action-free videos and an inverse dynamics model on a limited set of action-labeled examples, allowing for independent scaling. Extensive evaluations demonstrate that the learned dynamics are both accurate, achieving up to 3.7x better MSE and over 2.5x better pixel prediction accuracy compared to prior approaches, and broadly useful. In downstream policy learning, our dynamics predictions enable a 1.2-2.2x improvement in low-data regimes, a 1.4x average improvement by learning from action-free human videos, and the first generalization to LIBERO tasks from zero in-distribution action data. Beyond robotic control, we find the dynamics learned by AMPLIFY to be a versatile latent world model, enhancing video prediction quality. Our results present a novel paradigm leveraging heterogeneous data sources to build efficient, generalizable world models. More information can be found at https://amplify-robotics.github.io/.

arxiv情報

著者 Jeremy A. Collins,Loránd Cheng,Kunal Aneja,Albert Wilcox,Benjamin Joffe,Animesh Garg
発行日 2025-06-17 05:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | AMPLIFY: Actionless Motion Priors for Robot Learning from Videos はコメントを受け付けていません

Pose State Perception of Interventional Robot for Cardio-cerebrovascular Procedures

要約

心臓血管血管介入手術の需要の増加に応じて、介入ロボットの正確な制御がますます重要になっています。
これらの複雑な血管シナリオ内では、介入ロボットのポーズ状態の正確で信頼できる認識が特に重要です。
このペーパーでは、追加のセンサーやマーカーを必要とせずに、新しいビジョンベースのアプローチを紹介します。
このペーパーのメソッドのコアは、3部構成のフレームワークで構成されています。まず、同時容器セグメントと介入ロボット検出のためのデュアルヘッドマルチタスクU-NETモデルです。
第二に、スケルトンの抽出と最適化のための高度なアルゴリズム。
そして最後に、幾何学的特徴に基づいた包括的なポーズ状態認識システムが実装され、ロボットのポーズ状態を正確に特定し、その後の制御のための戦略を提供します。
実験結果は、提案された方法の軌道追跡における高い信頼性と精度を示し、状態の認識をもたらします。

要約(オリジナル)

In response to the increasing demand for cardiocerebrovascular interventional surgeries, precise control of interventional robots has become increasingly important. Within these complex vascular scenarios, the accurate and reliable perception of the pose state for interventional robots is particularly crucial. This paper presents a novel vision-based approach without the need of additional sensors or markers. The core of this paper’s method consists of a three-part framework: firstly, a dual-head multitask U-Net model for simultaneous vessel segment and interventional robot detection; secondly, an advanced algorithm for skeleton extraction and optimization; and finally, a comprehensive pose state perception system based on geometric features is implemented to accurately identify the robot’s pose state and provide strategies for subsequent control. The experimental results demonstrate the proposed method’s high reliability and accuracy in trajectory tracking and pose state perception.

arxiv情報

著者 Shunhan Ji,Yanxi Chen,Zhongyu Yang,Quan Zhang,Xiaohang Nie,Jingqian Sun,Yichao Tang
発行日 2025-06-17 05:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Pose State Perception of Interventional Robot for Cardio-cerebrovascular Procedures はコメントを受け付けていません

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

要約

継続的な環境でのビジョンと言語のナビゲーション(VLN)には、制約のない3Dスペースをナビゲートしながら、エージェントが自然言語の指示を解釈する必要があります。
既存のVLN-CEフレームワークは、2段階のアプローチ、次の2段階のアプローチに依存しています。ウェイポイントを生成するウェイポイント予測子と、動きを実行するナビゲーターです。
ただし、現在のウェイポイント予測因子は空間的認識と闘っていますが、ナビゲーターは歴史的な推論とバックトラッキング機能を欠いており、適応性を制限しています。
拡張されたウェイポイント予測子をマルチモーダル大手言語モデル(MLLM)ベースのナビゲーターと統合するゼロショットVLN-CEフレームワークを提案します。
予測因子は、より強力なビジョンエンコーダー、マスクされたクロスアテンション融合、およびウェイポイント品質の向上のために占有認識の損失を採用しています。
ナビゲーターは、バックトラッキングを備えた歴史を意識した推論と適応パス計画を組み込み、堅牢性を向上させます。
R2R-CEおよびMP3Dベンチマークでの実験は、メソッドがゼロショット設定で最先端の(SOTA)パフォーマンスを達成し、完全に監視された方法と比較して競争結果を示していることを示しています。
TurtleBot 4の実際の検証は、その適応性をさらに強調しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) in continuous environments requires agents to interpret natural language instructions while navigating unconstrained 3D spaces. Existing VLN-CE frameworks rely on a two-stage approach: a waypoint predictor to generate waypoints and a navigator to execute movements. However, current waypoint predictors struggle with spatial awareness, while navigators lack historical reasoning and backtracking capabilities, limiting adaptability. We propose a zero-shot VLN-CE framework integrating an enhanced waypoint predictor with a Multi-modal Large Language Model (MLLM)-based navigator. Our predictor employs a stronger vision encoder, masked cross-attention fusion, and an occupancy-aware loss for better waypoint quality. The navigator incorporates history-aware reasoning and adaptive path planning with backtracking, improving robustness. Experiments on R2R-CE and MP3D benchmarks show our method achieves state-of-the-art (SOTA) performance in zero-shot settings, demonstrating competitive results compared to fully supervised methods. Real-world validation on Turtlebot 4 further highlights its adaptability.

arxiv情報

著者 Xiangyu Shi,Zerui Li,Wenqi Lyu,Jiatong Xia,Feras Dayoub,Yanyuan Qiao,Qi Wu
発行日 2025-06-17 05:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation はコメントを受け付けていません

Hierarchical Intention Tracking with Switching Trees for Real-Time Adaptation to Dynamic Human Intentions during Collaboration

要約

共同作業中、人間の行動は、タスクシーケンスの好みや相互作用戦略など、時間とともに進化する複数のレベルの意図によって導かれます。
これらの変化する好みに適応し、不正確な推定を迅速に修正するために、共同ロボットはこれらの動的な人間の意図をリアルタイムで正確に追跡する必要があります。
コラボレーションロボットの階層意図追跡(HIT)アルゴリズムを提案して、ダイナミックで階層的な人間の意図をリアルタイムで効果的に追跡します。
ヒットは、人間の意図を任意の深さを持つ意図の木として表し、ベイジアンフィルタリング、上向きの測定伝播、およびあらゆるレベルで下向きの後方伝播によって人間の意図を確率的に追跡します。
インタラクションタスクと検証タスクツリーを動的に切り替えるヒットベースのロボットシステムを開発し、コラボレーションアセンブリタスクを作成し、ロボットが3つのレベルで人間の意図を効果的に調整できるようにします:タスクレベル(サブタスクの目標位置)、インタラクションレベル(ロボットとのエンゲージメントモード)、および検証レベル(確認または修正意図認識)。
当社のユーザー調査によると、当社のヒットベースの共同ロボットシステムは、安全性とタスクの完了を確保しながら、効率、物理的ワークロード、ユーザーの快適性のバランスをとることにより、既存のコラボレーションロボットソリューションを上回ることが示されています。
実験後の調査では、ヒットベースのシステムがユーザーの信頼を高め、複数のレベルでの人間の意図の効果的な理解を通じてユーザーのタスクの流れの中断を最小限に抑えることをさらに明らかにしています。

要約(オリジナル)

During collaborative tasks, human behavior is guided by multiple levels of intentions that evolve over time, such as task sequence preferences and interaction strategies. To adapt to these changing preferences and promptly correct any inaccurate estimations, collaborative robots must accurately track these dynamic human intentions in real time. We propose a Hierarchical Intention Tracking (HIT) algorithm for collaborative robots to track dynamic and hierarchical human intentions effectively in real time. HIT represents human intentions as intention trees with arbitrary depth, and probabilistically tracks human intentions by Bayesian filtering, upward measurement propagation, and downward posterior propagation across all levels. We develop a HIT-based robotic system that dynamically switches between Interaction-Task and Verification-Task trees for a collaborative assembly task, allowing the robot to effectively coordinate human intentions at three levels: task-level (subtask goal locations), interaction-level (mode of engagement with the robot), and verification-level (confirming or correcting intention recognition). Our user study shows that our HIT-based collaborative robot system surpasses existing collaborative robot solutions by achieving a balance between efficiency, physical workload, and user comfort while ensuring safety and task completion. Post-experiment surveys further reveal that the HIT-based system enhances the user trust and minimizes interruptions to user’s task flow through its effective understanding of human intentions across multiple levels.

arxiv情報

著者 Zhe Huang,Ye-Ji Mun,Fatemeh Cheraghi Pouria,Katherine Driggs-Campbell
発行日 2025-06-17 05:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Hierarchical Intention Tracking with Switching Trees for Real-Time Adaptation to Dynamic Human Intentions during Collaboration はコメントを受け付けていません

Narrate2Nav: Real-Time Visual Navigation with Implicit Language Reasoning in Human-Centric Environments

要約

大規模なビジョン言語モデル(VLM)は、推論能力を示しながら、文脈的なキュー、人間の意図、および社会的ダイナミクスを理解することにより、人間中心の環境でのモバイルロボットナビゲーションを強化する可能性を実証しています。
ただし、それらの計算の複雑さと連続数値データに対する感度が限られていることは、リアルタイムのパフォーマンスと正確なモーションコントロールを妨げます。
この目的のために、barlow双子の冗長性削減損失に基づいて、暗黙の自然言語の推論、社会的手がかり、およびモデルの潜在的な空間ではなく潜在的な空間での潜在的な空間での視覚エンコーダー有効な推論内の人間の意図に基づいて、斬新な自己監視学習フレームワークを活用する新しいリアルタイムビジョンアクションモデルであるNarrate2navを提案します。
このモデルは、展開中の短距離ポイントゴールナビゲーションのロボット観測から低レベルのモーションコマンドへのトレーニング中に、トレーニング中のシーンコンテキストのRGB入力、モーションコマンド、およびテキスト信号を組み合わせています。
オフラインの目に見えないデータセットと現実世界の両方の実験の両方で、さまざまな挑戦的なシナリオにわたるArlate2NAVの広範な評価は、次のベストベースラインでそれぞれ52.94%と41.67%の全体的な改善を示しています。
さらに、他の4つのベースラインに対するNarrate2Navの視覚エンコーダーの注意マップの定性的比較分析は、ナビゲーション批判的なシーン要素への注意の強化を示しており、人間中心のナビゲーションタスクにおけるその有効性を強調しています。

要約(オリジナル)

Large Vision-Language Models (VLMs) have demonstrated potential in enhancing mobile robot navigation in human-centric environments by understanding contextual cues, human intentions, and social dynamics while exhibiting reasoning capabilities. However, their computational complexity and limited sensitivity to continuous numerical data impede real-time performance and precise motion control. To this end, we propose Narrate2Nav, a novel real-time vision-action model that leverages a novel self-supervised learning framework based on the Barlow Twins redundancy reduction loss to embed implicit natural language reasoning, social cues, and human intentions within a visual encoder-enabling reasoning in the model’s latent space rather than token space. The model combines RGB inputs, motion commands, and textual signals of scene context during training to bridge from robot observations to low-level motion commands for short-horizon point-goal navigation during deployment. Extensive evaluation of Narrate2Nav across various challenging scenarios in both offline unseen dataset and real-world experiments demonstrates an overall improvement of 52.94 percent and 41.67 percent, respectively, over the next best baseline. Additionally, qualitative comparative analysis of Narrate2Nav’s visual encoder attention map against four other baselines demonstrates enhanced attention to navigation-critical scene elements, underscoring its effectiveness in human-centric navigation tasks.

arxiv情報

著者 Amirreza Payandeh,Anuj Pokhrel,Daeun Song,Marcos Zampieri,Xuesu Xiao
発行日 2025-06-17 06:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Narrate2Nav: Real-Time Visual Navigation with Implicit Language Reasoning in Human-Centric Environments はコメントを受け付けていません