When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room

要約

目的:外科的パフォーマンスは、外科医の技術的スキルだけでなく、手術中に存在するさまざまな専門家グループ内および全体のチームコミュニケーションにも依存します。
したがって、ORでのチームコミュニケーションを自動的に特定することは、患者の安全性とコンピューター支援の外科的ワークフロー分析と術中サポートシステムの開発における進歩に重要です。
最初の一歩を踏み出すために、すべてまたはチームメンバーが関与するコミュニケーションブリーフィング、つまりチームのタイムアウトとストップ? – プロトコルを検出する新しいタスクを提案します。
方法:Team-ORと呼ばれる実際の手術のデータセットを生成し、ORのマルチビューカメラシステムによってキャプチャされた100時間以上の手術ビデオを使用します。
データセットには、33のタイムアウトと22の停止の時間的注釈が含まれています。
次に、シーンのコンテキストとアクション機能の両方をエンコードし、効率的なニューラルネットワークモデルを使用して結果を出力する新しいグループアクティビティ検出アプローチを提案します。
結果:チームまたはデータセットの実験結果は、このアプローチが既存の最先端の時間的アクション検出アプローチを上回ることを示しています。
また、ORのグループ活動に関する研究の欠如も示しており、データセットの重要性を証明しています。
結論:チームのタイムアウトと停止を調査しますか? – またはデータセットにグループアクティビティプロトコルの時間的注釈を提示し、既存のアプローチを上回る新しいグループアクティビティ検出アプローチを導入します。
コードはhttps://github.com/camma-public/team-orで入手できます。

要約(オリジナル)

Purpose: Surgical performance depends not only on surgeons’ technical skills but also on team communication within and across the different professional groups present during the operation. Therefore, automatically identifying team communication in the OR is crucial for patient safety and advances in the development of computer-assisted surgical workflow analysis and intra-operative support systems. To take the first step, we propose a new task of detecting communication briefings involving all OR team members, i.e. the team Time-out and the StOP?-protocol, by localizing their start and end times in video recordings of surgical operations. Methods: We generate an OR dataset of real surgeries, called Team-OR, with more than one hundred hours of surgical videos captured by the multi-view camera system in the OR. The dataset contains temporal annotations of 33 Time-out and 22 StOP?-protocol activities in total. We then propose a novel group activity detection approach, where we encode both scene context and action features, and use an efficient neural network model to output the results. Results: The experimental results on the Team-OR dataset show that our approach outperforms existing state-of-the-art temporal action detection approaches. It also demonstrates the lack of research on group activities in the OR, proving the significance of our dataset. Conclusion: We investigate the Team Time-Out and the StOP?-protocol in the OR, by presenting the first OR dataset with temporal annotations of group activities protocols, and introducing a novel group activity detection approach that outperforms existing approaches. Code is available at https://github.com/CAMMA-public/Team-OR.

arxiv情報

著者 Keqi Chen,Lilien Schewski,Vinkle Srivastav,Joël Lavanchy,Didier Mutter,Guido Beldi,Sandra Keller,Nicolas Padoy
発行日 2025-02-13 09:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room はコメントを受け付けていません

Re$^3$Sim: Generating High-Fidelity Simulation Data via 3D-Photorealistic Real-to-Sim for Robotic Manipulation

要約

Roboticsの現実世界のデータ収集は費用がかかり、リソース集約型であり、熟練したオペレーターと高価なハードウェアが必要です。
シミュレーションはスケーラブルな代替品を提供しますが、幾何学的および視覚的なギャップのためにSIMからリアルの一般化を達成できないことがよくあります。
これらの課題に対処するために、幾何学的および視覚的なSIMからリアルへのギャップに対処する、3DフォトリックなリアルからSIMからSIMシステムを提案します。
Re $^3 $ SIMは、現実世界のシナリオを忠実に再現するために、高度な3D再構築およびニューラルレンダリング技術を採用し、物理ベースのシミュレータ内でシミュレートされたクロスビューカメラのリアルタイムレンダリングを可能にします。
特権情報を利用して、シミュレーションでエキスパートのデモンストレーションを効率的に収集し、模倣学習を備えたロボットポリシーを訓練することにより、さまざまな操作タスクシナリオにわたる実際のパイプラインの有効性を検証します。
特に、シミュレートされたデータのみを使用すると、平均成功率が58%を超えるゼロショットSIMからリアルへの転送を達成できます。
REALからSIMの限界を押し上げるために、大規模なシミュレーションデータセットをさらに生成し、さまざまなオブジェクトに一般化するシミュレーションデータから堅牢なポリシーをどのように構築できるかを示します。
コードとデモは、http://xshenhan.github.io/re3sim/で入手できます。

要約(オリジナル)

Real-world data collection for robotics is costly and resource-intensive, requiring skilled operators and expensive hardware. Simulations offer a scalable alternative but often fail to achieve sim-to-real generalization due to geometric and visual gaps. To address these challenges, we propose a 3D-photorealistic real-to-sim system, namely, RE$^3$SIM, addressing geometric and visual sim-to-real gaps. RE$^3$SIM employs advanced 3D reconstruction and neural rendering techniques to faithfully recreate real-world scenarios, enabling real-time rendering of simulated cross-view cameras within a physics-based simulator. By utilizing privileged information to collect expert demonstrations efficiently in simulation, and train robot policies with imitation learning, we validate the effectiveness of the real-to-sim-to-real pipeline across various manipulation task scenarios. Notably, with only simulated data, we can achieve zero-shot sim-to-real transfer with an average success rate exceeding 58%. To push the limit of real-to-sim, we further generate a large-scale simulation dataset, demonstrating how a robust policy can be built from simulation data that generalizes across various objects. Codes and demos are available at: http://xshenhan.github.io/Re3Sim/.

arxiv情報

著者 Xiaoshen Han,Minghuan Liu,Yilun Chen,Junqiu Yu,Xiaoyang Lyu,Yang Tian,Bolun Wang,Weinan Zhang,Jiangmiao Pang
発行日 2025-02-13 06:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Re$^3$Sim: Generating High-Fidelity Simulation Data via 3D-Photorealistic Real-to-Sim for Robotic Manipulation はコメントを受け付けていません

PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models

要約

大規模なマルチモーダルモデル(LMM)は、視覚的なシーンの解釈と推論において顕著な能力を実証していますが、複雑で正確な3次元空間推論の能力は不確実なままです。
既存のベンチマークは主に2D空間的理解に焦点を当てており、さまざまな複雑さにわたって6D空間的推論を包括的に評価するためのフレームワークを欠いています。
この制限に対処するために、空間推論のために4つの重要な機能を備えたスケーラブルで偏りのない合成データセットであるPulsecheck457を提示します:マルチオブジェクト認識、2Dロケーション、3Dロケーション、3D方向。
カスケード評価構造を開発し、基本的な単一オブジェクト認識から新しい提案された複雑な6D空間推論タスクに至るまで、5つの難易度レベルにわたって7つの質問タイプを構築します。
Pulsecheck457でさまざまな大きなマルチモーダルモデル(LMMS)を評価し、特に3D推論と6D空間タスクで、タスクの複雑さが増加するにつれてパフォーマンスの一般的な低下を観察しました。
これらの課題を定量化するために、相対パフォーマンスの低下率(RPDR)を導入し、3D推論能力の重要な弱点を強調します。
データセットの偏りのない属性設計を活用すると、実際の画像設定で同様のパターンが観察される異なる属性にわたって予測バイアスも明らかにします。

要約(オリジナル)

Although large multimodal models (LMMs) have demonstrated remarkable capabilities in visual scene interpretation and reasoning, their capacity for complex and precise 3-dimensional spatial reasoning remains uncertain. Existing benchmarks focus predominantly on 2D spatial understanding and lack a framework to comprehensively evaluate 6D spatial reasoning across varying complexities. To address this limitation, we present PulseCheck457, a scalable and unbiased synthetic dataset designed with 4 key capability for spatial reasoning: multi-object recognition, 2D location, 3D location, and 3D orientation. We develop a cascading evaluation structure, constructing 7 question types across 5 difficulty levels that range from basic single object recognition to our new proposed complex 6D spatial reasoning tasks. We evaluated various large multimodal models (LMMs) on PulseCheck457, observing a general decline in performance as task complexity increases, particularly in 3D reasoning and 6D spatial tasks. To quantify these challenges, we introduce the Relative Performance Dropping Rate (RPDR), highlighting key weaknesses in 3D reasoning capabilities. Leveraging the unbiased attribute design of our dataset, we also uncover prediction biases across different attributes, with similar patterns observed in real-world image settings.

arxiv情報

著者 Xingrui Wang,Wufei Ma,Tiezheng Zhang,Celso M de Melo,Jieneng Chen,Alan Yuille
発行日 2025-02-13 06:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models はコメントを受け付けていません

Visual-Haptic Model Mediated Teleoperation for Remote Ultrasound

要約

Tele-Ultrasoundは、無数のリモートコミュニティの健康公平性を改善する可能性が大きくあります。
ただし、実用的なシナリオには、テレロボーティック超音波(US)の現在の実装が失敗する潜在的に大きな時間遅延が含まれます。
リモート環境のローカルモデルを使用して触覚を専門家に提供することは、テレオ操作の不安定性を低下させる可能性がありますが、視覚的なフィードバックの遅延には問題があります。
このペーパーでは、ローカルモデルが触覚だけでなく、視覚的にも、事前に取得されたUSスイープをリアルタイムで再スライスおよびレンダリングすることにより、ロボットテレUSシステムを紹介して、遅延した画像のプレビューをオペレーターに提供することにより
似ている。
プロトタイプシステムが提示され、15のボランティアオペレーターでテストされます。
従来のMMTはそうではありませんが、オペレーターの努力と完了時間に関しては、視覚的hapticモデルを介したテレオ操作(MMT)が完全に1000ミリ秒の往復旅行を完全に補正することがわかっています。
また、視覚的haptic MMTは、運動の精度と力制御の点で、より長い時間遅延でMMTを大幅に上回ります。
この概念実証研究は、視覚的hapt視MMTがリモートロボットのTELE-USを促進する可能性があることを示唆しています。

要約(オリジナル)

Tele-ultrasound has the potential greatly to improve health equity for countless remote communities. However, practical scenarios involve potentially large time delays which cause current implementations of telerobotic ultrasound (US) to fail. Using a local model of the remote environment to provide haptics to the expert operator can decrease teleoperation instability, but the delayed visual feedback remains problematic. This paper introduces a robotic tele-US system in which the local model is not only haptic, but also visual, by re-slicing and rendering a pre-acquired US sweep in real time to provide the operator a preview of what the delayed image will resemble. A prototype system is presented and tested with 15 volunteer operators. It is found that visual-haptic model-mediated teleoperation (MMT) compensates completely for time delays up to 1000 ms round trip in terms of operator effort and completion time while conventional MMT does not. Visual-haptic MMT also significantly outperforms MMT for longer time delays in terms of motion accuracy and force control. This proof-of-concept study suggests that visual-haptic MMT may facilitate remote robotic tele-US.

arxiv情報

著者 David Black,Maria Tirindelli,Septimiu Salcudean,Wolfgang Wein,Marco Esposito
発行日 2025-02-11 19:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Visual-Haptic Model Mediated Teleoperation for Remote Ultrasound はコメントを受け付けていません

Robot Instance Segmentation with Few Annotations for Grasping

要約

ロボットがオブジェクトを操作する能力は、視覚的認識に適したことに大きく依存しています。
散らかったシーンと高いオブジェクトの変動性を特徴とするドメインでは、ほとんどの方法では、トレーニングに対応できるモデルを目的として、手作業で解決された広大なラベル付きデータセットが必要です。
展開すると、なじみのないオブジェクトに一般化するという課題は、モデルがドメインとともに進化しなければならないことを意味します。
これに対処するために、半監視学習(SSL)とインタラクション(LTI)を介した学習(LTI)を組み合わせた新しいフレームワークを提案します。これにより、シーンの変化を観察することでモデルが学習できるようにし、相互作用シーケンスのキュレーションされたデータを必要とせずに一時的なギャップにもかかわらず視覚的な一貫性を活用します。
その結果、私たちのアプローチは、自己監視を介して部分的に注釈付きのデータを活用し、無効な静止画像から生成された擬似シーケンスを使用して時間的コンテキストを組み込みます。
2つの一般的なベンチマークであるArmbench Mix-Object-ToteとOCIDでメソッドを検証し、最先端のパフォーマンスを実現します。
特に、ARMBenchでは、$ \ Text {AP} _ {50} $ 86.37 $、ほぼ20ドルの$ 20 \%$の改善を達成し、注釈が非常に低いシナリオで顕著な結果を得て、$ \テキストを達成します。
{ap} _ {50} $ $ 84.89 $のスコア84.89ドルで、完全に注釈付きのカウンターパートでアームベンチで提示された$ 72 $と比較して、わずか1 $ 1 \%$ $ \%$ $ $ \%$が注釈付きデータです。

要約(オリジナル)

The ability of robots to manipulate objects relies heavily on their aptitude for visual perception. In domains characterized by cluttered scenes and high object variability, most methods call for vast labeled datasets, laboriously hand-annotated, with the aim of training capable models. Once deployed, the challenge of generalizing to unfamiliar objects implies that the model must evolve alongside its domain. To address this, we propose a novel framework that combines Semi-Supervised Learning (SSL) with Learning Through Interaction (LTI), allowing a model to learn by observing scene alterations and leverage visual consistency despite temporal gaps without requiring curated data of interaction sequences. As a result, our approach exploits partially annotated data through self-supervision and incorporates temporal context using pseudo-sequences generated from unlabeled still images. We validate our method on two common benchmarks, ARMBench mix-object-tote and OCID, where it achieves state-of-the-art performance. Notably, on ARMBench, we attain an $\text{AP}_{50}$ of $86.37$, almost a $20\%$ improvement over existing work, and obtain remarkable results in scenarios with extremely low annotation, achieving an $\text{AP}_{50}$ score of $84.89$ with just $1 \%$ of annotated data compared to $72$ presented in ARMBench on the fully annotated counterpart.

arxiv情報

著者 Moshe Kimhi,David Vainshtein,Chaim Baskin,Dotan Di Castro
発行日 2025-02-11 19:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Robot Instance Segmentation with Few Annotations for Grasping はコメントを受け付けていません

End-to-End Predictive Planner for Autonomous Driving with Consistency Models

要約

軌道の予測と計画は、自動運転車が動的環境で安全かつ効率的にナビゲートするための基本的なコンポーネントです。
従来、これらのコンポーネントはしばしば別々のモジュールとして扱われており、インタラクティブな計画を実行する能力を制限し、マルチエージェントシナリオでの計算非効率性につながります。
この論文では、予測と計画を単一の一貫性モデルと統合する新しい統一されたデータ駆動型フレームワークを紹介します。
現実世界の人間の運転データセットで訓練された一貫性モデルは、エゴと複数の周囲のエージェントの高次元的なジョイント軌道分布からサンプルを生成し、エンドツーエンドの予測計画を可能にします。
他の道路利用者との安全で効率的な相互作用の両方を確保するために、積極的な微調整や降伏などのインタラクティブな動作を効果的に生成します。
エゴ車両に追加の計画制約を組み込むために、オンラインガイドサンプリングにおける多目的ガイダンスのための交互の方向方法を提案します。
拡散モデルと比較して、一貫性モデルは、サンプリングステップが少なくなるとパフォーマンスが向上し、リアルタイムの展開に適しています。
Waymo Open Motion Dataset(WOMD)の実験結果は、さまざまな既存のアプローチと比較して、軌跡の品質、制約満足度、およびインタラクティブな動作における方法の優位性を示しています。

要約(オリジナル)

Trajectory prediction and planning are fundamental components for autonomous vehicles to navigate safely and efficiently in dynamic environments. Traditionally, these components have often been treated as separate modules, limiting the ability to perform interactive planning and leading to computational inefficiency in multi-agent scenarios. In this paper, we present a novel unified and data-driven framework that integrates prediction and planning with a single consistency model. Trained on real-world human driving datasets, our consistency model generates samples from high-dimensional, multimodal joint trajectory distributions of the ego and multiple surrounding agents, enabling end-to-end predictive planning. It effectively produces interactive behaviors, such as proactive nudging and yielding to ensure both safe and efficient interactions with other road users. To incorporate additional planning constraints on the ego vehicle, we propose an alternating direction method for multi-objective guidance in online guided sampling. Compared to diffusion models, our consistency model achieves better performance with fewer sampling steps, making it more suitable for real-time deployment. Experimental results on Waymo Open Motion Dataset (WOMD) demonstrate our method’s superiority in trajectory quality, constraint satisfaction, and interactive behavior compared to various existing approaches.

arxiv情報

著者 Anjian Li,Sangjae Bae,David Isele,Ryne Beeson,Faizan M. Tariq
発行日 2025-02-12 00:26:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | End-to-End Predictive Planner for Autonomous Driving with Consistency Models はコメントを受け付けていません

STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion

要約

ヒューマノイドロボットは、人工知能に大きな課題を提示し、高度の高度化システムの正確な調整と制御を必要とします。
このドメインにおける深い強化学習(DRL)の効果的な報酬機能の設計は、依然として重要なボトルネックであり、広範な手動の努力、ドメインの専門知識、反復改良を要求しています。
これらの課題を克服するために、Humanoid Robot Mocomotionタスクの報酬設計、DRLトレーニング、フィードバックの最適化を自動化するために、エージェントエンジニアリングに基づいた新しいフレームワークであるStrideを紹介します。
エージェントエンジニアリングの構造化された原理を、コードライティング、ゼロショット生成、およびコンテキスト内最適化のための大規模な言語モデル(LLMS)と組み合わせることにより、ストライドは、タスク固有のプロンプトやテンプレートに頼らずに報酬機能を生成、評価、および繰り返し洗練します。

ヒューマノイドロボットの形態を特徴とする多様な環境で、Strideは最先端の報酬設計フレームワークEurekaを上回り、効率とタスクのパフォーマンスにおけるラウンド250%の平均改善を達成します。
ストライド生成の報酬を使用して、シミュレートされたヒューマノイドロボットは、複雑な地形でスプリントレベルの移動を実現し、DRLワークフローとヒューマノイドロボット研究を進める能力を強調します。

要約(オリジナル)

Humanoid robotics presents significant challenges in artificial intelligence, requiring precise coordination and control of high-degree-of-freedom systems. Designing effective reward functions for deep reinforcement learning (DRL) in this domain remains a critical bottleneck, demanding extensive manual effort, domain expertise, and iterative refinement. To overcome these challenges, we introduce STRIDE, a novel framework built on agentic engineering to automate reward design, DRL training, and feedback optimization for humanoid robot locomotion tasks. By combining the structured principles of agentic engineering with large language models (LLMs) for code-writing, zero-shot generation, and in-context optimization, STRIDE generates, evaluates, and iteratively refines reward functions without relying on task-specific prompts or templates. Across diverse environments featuring humanoid robot morphologies, STRIDE outperforms the state-of-the-art reward design framework EUREKA, achieving an average improvement of round 250% in efficiency and task performance. Using STRIDE-generated rewards, simulated humanoid robots achieve sprint-level locomotion across complex terrains, highlighting its ability to advance DRL workflows and humanoid robotics research.

arxiv情報

著者 Zhenwei Wu,Jinxiong Lu,Yuxiao Chen,Yunxin Liu,Yueting Zhuang,Luhui Hu
発行日 2025-02-12 01:02:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion はコメントを受け付けていません

COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping

要約

このペーパーでは、閉塞されたロボットの把握の課題、つまり、表面衝突などの環境制約のために、望ましい把握ポーズが運動的に実行不可能な状況で把握します。
従来のロボット操作アプローチは、これらの状況で一般的に人間が一般的に使用する非摂食または両倍の戦略の複雑さと闘っています。
タスクの固有の複雑さのために、最先端の強化学習(RL)方法は不適切です。
対照的に、デモンストレーションから学ぶには、かなりの数の専門家デモを収集する必要がありますが、これはしばしば実行不可能です。
代わりに、両手が調整してオブジェクトを安定させ、方向転換する人間の操作戦略に触発されて、この課題に取り組むための二元的なロボットセットアップに焦点を当てます。
特に、2つの調整されたポリシーを活用する学習ベースのアプローチ:自己監視データセットを使用して安定化ポーズを生成し、RLLを使用して訓練された把握ポリシーを訓練する学習ベースのアプローチ、およびRL
ターゲットオブジェクトを再配分および把握します。
重要な貢献は、価値関数誘導ポリシー調整にあります。
具体的には、把握ポリシーのRLトレーニング中に、制約ポリシーの出力は、共同トレーニングされた価値関数からの勾配を通じて洗練され、両手調整とタスクのパフォーマンスが向上します。
最後に、Combo-Graspは教師と学生のポリシーの蒸留を採用して、現実世界の環境でポイントクラウドベースのポリシーを効果的に展開しています。
経験的評価は、コンボグラスが競争力のあるベースラインアプローチと比較してタスクの成功率を大幅に改善することを示しています。

要約(オリジナル)

This paper addresses the challenge of occluded robot grasping, i.e. grasping in situations where the desired grasp poses are kinematically infeasible due to environmental constraints such as surface collisions. Traditional robot manipulation approaches struggle with the complexity of non-prehensile or bimanual strategies commonly used by humans in these circumstances. State-of-the-art reinforcement learning (RL) methods are unsuitable due to the inherent complexity of the task. In contrast, learning from demonstration requires collecting a significant number of expert demonstrations, which is often infeasible. Instead, inspired by human bimanual manipulation strategies, where two hands coordinate to stabilise and reorient objects, we focus on a bimanual robotic setup to tackle this challenge. In particular, we introduce Constraint-based Manipulation for Bimanual Occluded Grasping (COMBO-Grasp), a learning-based approach which leverages two coordinated policies: a constraint policy trained using self-supervised datasets to generate stabilising poses and a grasping policy trained using RL that reorients and grasps the target object. A key contribution lies in value function-guided policy coordination. Specifically, during RL training for the grasping policy, the constraint policy’s output is refined through gradients from a jointly trained value function, improving bimanual coordination and task performance. Lastly, COMBO-Grasp employs teacher-student policy distillation to effectively deploy point cloud-based policies in real-world environments. Empirical evaluations demonstrate that COMBO-Grasp significantly improves task success rates compared to competitive baseline approaches, with successful generalisation to unseen objects in both simulated and real-world environments.

arxiv情報

著者 Jun Yamada,Alexander L. Mitchell,Jack Collins,Ingmar Posner
発行日 2025-02-12 01:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping はコメントを受け付けていません

NMM-HRI: Natural Multi-modal Human-Robot Interaction with Voice and Deictic Posture via Large Language Model

要約

人間の意図をロボットコマンドに翻訳することは、高齢化社会におけるサービスロボットの将来にとって重要です。
ジェスチャーや口頭でのコマンドに依存する既存の人間とロボットの相互作用(HRI)システムは、複雑な構文や手話の困難により、高齢者にとっては非現実的です。
課題に対処するために、このホワイトペーパーでは、音声と神話の姿勢情報を組み合わせて、より自然なHRIシステムを作成するマルチモーダル相互作用フレームワークを紹介します。
視覚的なキューは、最初にオブジェクト検出モデルによって処理され、環境のグローバルな理解を得るため、境界ボックスは深さ情報に基づいて推定されます。
音声からテキストへのコマンドを備えた大規模な言語モデル(LLM)を使用し、選択した境界ボックスを一時的に並べることにより、ロボットアクションシーケンスを生成できますが、潜在的なLLM幻覚の問題を回避するためにキーコントロール構文の制約が適用されます。
このシステムは、ユニバーサルロボットUR3Eマニピュレーターを使用して、さまざまなレベルの複雑さを持つ実際のタスクで評価されます。
私たちの方法は、精度と堅牢性の点でHRIのパフォーマンスが大幅に向上することを示しています。
研究コミュニティと一般の人々に利益をもたらすために、私たちはコードと設計をオープンソースにします。

要約(オリジナル)

Translating human intent into robot commands is crucial for the future of service robots in an aging society. Existing Human-Robot Interaction (HRI) systems relying on gestures or verbal commands are impractical for the elderly due to difficulties with complex syntax or sign language. To address the challenge, this paper introduces a multi-modal interaction framework that combines voice and deictic posture information to create a more natural HRI system. The visual cues are first processed by the object detection model to gain a global understanding of the environment, and then bounding boxes are estimated based on depth information. By using a large language model (LLM) with voice-to-text commands and temporally aligned selected bounding boxes, robot action sequences can be generated, while key control syntax constraints are applied to avoid potential LLM hallucination issues. The system is evaluated on real-world tasks with varying levels of complexity using a Universal Robots UR3e manipulator. Our method demonstrates significantly better performance in HRI in terms of accuracy and robustness. To benefit the research community and the general public, we will make our code and design open-source.

arxiv情報

著者 Yuzhi Lai,Shenghai Yuan,Youssef Nassar,Mingyu Fan,Atmaraaj Gopal,Arihiro Yorita,Naoyuki Kubota,Matthias Rätsch
発行日 2025-02-12 02:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | NMM-HRI: Natural Multi-modal Human-Robot Interaction with Voice and Deictic Posture via Large Language Model はコメントを受け付けていません

Optimal Spatial-Temporal Triangulation for Bearing-Only Cooperative Motion Estimation

要約

視覚ベースの協同運動推定は、協同組合航空ターゲット追跡など、多くのマルチロボットシステムにとって重要な問題です。
この問題は、視覚測定がカメラからターゲットを指すベアリングベクトルとしてモデル化されているベアリングのみの協同運動推定として定式化できます。
ベアリングのみの協同的推定のための従来のアプローチは、主に分散されたKalmanフィルタリング(DKF)に基づいています。
この論文では、DKFよりも分散推定器を設計するためのより柔軟なフレームワークを提供する分散再帰最小二乗の方法に基づいて、空間的な三角測量と名付けられた新しい最適なベアリングのみの協同組合推定アルゴリズムを提案します。
アルゴリズムの設計には、利用可能なすべての情報と特定の三角測量の幾何学的制約が完全に組み込まれています。
その結果、アルゴリズムは、数値シミュレーションによって検証された精度と収束速度の両方の点で、最先端のDKFアルゴリズムよりも優れた推定パフォーマンスを持っています。
提案されたアルゴリズムの指数関数的収束を厳密に証明します。
さらに、実際の困難な条件下で提案されたアルゴリズムの有効性を検証するために、視覚ベースの協同航空ターゲット追跡システムを開発します。

要約(オリジナル)

Vision-based cooperative motion estimation is an important problem for many multi-robot systems such as cooperative aerial target pursuit. This problem can be formulated as bearing-only cooperative motion estimation, where the visual measurement is modeled as a bearing vector pointing from the camera to the target. The conventional approaches for bearing-only cooperative estimation are mainly based on the framework distributed Kalman filtering (DKF). In this paper, we propose a new optimal bearing-only cooperative estimation algorithm, named spatial-temporal triangulation, based on the method of distributed recursive least squares, which provides a more flexible framework for designing distributed estimators than DKF. The design of the algorithm fully incorporates all the available information and the specific triangulation geometric constraint. As a result, the algorithm has superior estimation performance than the state-of-the-art DKF algorithms in terms of both accuracy and convergence speed as verified by numerical simulation. We rigorously prove the exponential convergence of the proposed algorithm. Moreover, to verify the effectiveness of the proposed algorithm under practical challenging conditions, we develop a vision-based cooperative aerial target pursuit system, which is the first of such fully autonomous systems so far to the best of our knowledge.

arxiv情報

著者 Canlun Zheng,Yize Mi,Hanqing Guo,Huaben Chen,Zhiyun Lin,Shiyu Zhao
発行日 2025-02-12 02:16:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Optimal Spatial-Temporal Triangulation for Bearing-Only Cooperative Motion Estimation はコメントを受け付けていません