TeraSim: Uncovering Unknown Unsafe Events for Autonomous Vehicles through Generative Simulation

要約

交通シミュレーションは、自動運転車(AV)開発に不可欠であり、多様な運転条件全体で包括的な安全評価を可能にします。
ただし、従来のルールベースのシミュレーターは、複雑な人間の相互作用をキャプチャするのに苦労していますが、データ駆動型のアプローチは、長期的な行動リアリズムを維持したり、多様な安全性クリティカルなイベントを生成したりすることができないことがよくあります。
これらの課題に対処するために、未知の安全でないイベントを明らかにし、クラッシュレートなどのAV統計パフォーマンスメトリックを効率的に推定するように設計されたオープンソースの高忠実度トラフィックシミュレーションプラットフォームであるTerasimを提案します。
Terasimは、完全なAVシミュレーションシステムを構築するために、サードパーティの物理シミュレータおよびスタンドアロンAVスタックとのシームレスな統合のために設計されています。
実験結果は、静的エージェントと動的エージェントの両方を含む多様な安全性批判的なイベントを生成し、AVシステムの隠された欠陥を特定し、統計的パフォーマンス評価を可能にする際の有効性を示しています。
これらの調査結果は、AVの安全性評価のための実用的なツールとしてのテラシムの可能性を強調し、研究者、開発者、政策立案者に利益をもたらします。
コードはhttps://github.com/mcity/terasimで入手できます。

要約(オリジナル)

Traffic simulation is essential for autonomous vehicle (AV) development, enabling comprehensive safety evaluation across diverse driving conditions. However, traditional rule-based simulators struggle to capture complex human interactions, while data-driven approaches often fail to maintain long-term behavioral realism or generate diverse safety-critical events. To address these challenges, we propose TeraSim, an open-source, high-fidelity traffic simulation platform designed to uncover unknown unsafe events and efficiently estimate AV statistical performance metrics, such as crash rates. TeraSim is designed for seamless integration with third-party physics simulators and standalone AV stacks, to construct a complete AV simulation system. Experimental results demonstrate its effectiveness in generating diverse safety-critical events involving both static and dynamic agents, identifying hidden deficiencies in AV systems, and enabling statistical performance evaluation. These findings highlight TeraSim’s potential as a practical tool for AV safety assessment, benefiting researchers, developers, and policymakers. The code is available at https://github.com/mcity/TeraSim.

arxiv情報

著者 Haowei Sun,Xintao Yan,Zhijie Qiao,Haojie Zhu,Yihao Sun,Jiawei Wang,Shengyin Shen,Darian Hogue,Rajanikant Ananta,Derek Johnson,Greg Stevens,Greg McGuire,Yifan Wei,Wei Zheng,Yong Sun,Yasuo Fukai,Henry X. Liu
発行日 2025-04-02 02:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Inverse RL Scene Dynamics Learning for Nonlinear Predictive Control in Autonomous Vehicles

要約

このペーパーでは、自律ナビゲーションのためのシーンダイナミクス(DL-NMPC-SD)メソッドを備えたディープラーニングベースの非線形モデル予測コントローラーを紹介します。
DL-NMPC-SDは、時間範囲センシング情報から学習したシーンダイナミクスモデルと組み合わせて、A-Prioriの公称車両モデルを使用します。
シーンダイナミクスモデルは、目的の車両軌道を推定するだけでなく、基礎となるモデルの予測コントローラーが使用する真のシステムモデルを調整する責任があります。
操作条件の高次状態空間の非線形近似値として機能するディープニューラルネットワークの層内でシーンダイナミクスモデルをエンコードすることを提案します。
このモデルは、拡張メモリ成分によって統合された範囲検知観測とシステム状態の一時的なシーケンスに基づいて学習されます。
逆補強学習とベルマン最適性の原則を使用して、学習コントローラーをディープQラーニングアルゴリズムの修正バージョンでトレーニングし、目的の状態軌道を最適なアクション値関数として推定できるようにします。
DL-NMPC-SDを、ベースラインダイナミックウィンドウアプローチ(DWA)と、それぞれ2つの最先端のEND2ENDおよび強化学習方法に対して評価しました。
パフォーマンスは、3つの実験で測定されています。i)Gridsim仮想環境で、ii)屋内および屋外のナビゲーションタスクでは、Rovislab AMTU(自動モバイルテストユニット)プラットフォームとIII)を使用して、公道で運転している本格的な自律テストビークルを使用しています。

要約(オリジナル)

This paper introduces the Deep Learning-based Nonlinear Model Predictive Controller with Scene Dynamics (DL-NMPC-SD) method for autonomous navigation. DL-NMPC-SD uses an a-priori nominal vehicle model in combination with a scene dynamics model learned from temporal range sensing information. The scene dynamics model is responsible for estimating the desired vehicle trajectory, as well as to adjust the true system model used by the underlying model predictive controller. We propose to encode the scene dynamics model within the layers of a deep neural network, which acts as a nonlinear approximator for the high order state-space of the operating conditions. The model is learned based on temporal sequences of range sensing observations and system states, both integrated by an Augmented Memory component. We use Inverse Reinforcement Learning and the Bellman optimality principle to train our learning controller with a modified version of the Deep Q-Learning algorithm, enabling us to estimate the desired state trajectory as an optimal action-value function. We have evaluated DL-NMPC-SD against the baseline Dynamic Window Approach (DWA), as well as against two state-of-the-art End2End and reinforcement learning methods, respectively. The performance has been measured in three experiments: i) in our GridSim virtual environment, ii) on indoor and outdoor navigation tasks using our RovisLab AMTU (Autonomous Mobile Test Unit) platform and iii) on a full scale autonomous test vehicle driving on public roads.

arxiv情報

著者 Sorin Grigorescu,Mihai Zaha
発行日 2025-04-02 03:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

Learning Perceptive Humanoid Locomotion over Challenging Terrain

要約

ヒューマノイドロボットは、人間のような移動と知覚能力を必要とする人間に遭遇するものに似た地形をナビゲートするように設計されています。
現在、ヒューマノイド運動の最も信頼性の高いコントローラーは、頑丈な地形に対処するときに危険で信頼できない信頼である固有受容にのみ依存しています。
高さマップを知覚に統合すると、プロアクティブな歩行計画が可能になりますが、この情報の堅牢な利用は、特に外観の知覚がうるさい場合、依然として重要な課題のままです。
これらの課題を乗り越えるために、教師と学生の蒸留フレームワークに基づいた解決策を提案します。
このパラダイムでは、Oracleポリシーはノイズのないデータにアクセスして最適な参照ポリシーを確立しますが、学生ポリシーは教師の行動を模倣するだけでなく、同時にセンサーの除去と状態の推定用の変分情報ボトルネックを使用して世界モデルを訓練します。
広範な評価は、私たちのアプローチが信頼できない地形の推定を特徴とするシナリオのパフォーマンスを著しく向上させることを示しています。
さらに、私たちは挑戦的な都市環境とオフロード環境の両方で厳格なテストを実施しました。モデルは、外部介入なしに2 kmのさまざまな地形を正常に通過しました。

要約(オリジナル)

Humanoid robots are engineered to navigate terrains akin to those encountered by humans, which necessitates human-like locomotion and perceptual abilities. Currently, the most reliable controllers for humanoid motion rely exclusively on proprioception, a reliance that becomes both dangerous and unreliable when coping with rugged terrain. Although the integration of height maps into perception can enable proactive gait planning, robust utilization of this information remains a significant challenge, especially when exteroceptive perception is noisy. To surmount these challenges, we propose a solution based on a teacher-student distillation framework. In this paradigm, an oracle policy accesses noise-free data to establish an optimal reference policy, while the student policy not only imitates the teacher’s actions but also simultaneously trains a world model with a variational information bottleneck for sensor denoising and state estimation. Extensive evaluations demonstrate that our approach markedly enhances performance in scenarios characterized by unreliable terrain estimations. Moreover, we conducted rigorous testing in both challenging urban settings and off-road environments, the model successfully traverse 2 km of varied terrain without external intervention.

arxiv情報

著者 Wandong Sun,Baoshi Cao,Long Chen,Yongbo Su,Yang Liu,Zongwu Xie,Hong Liu
発行日 2025-04-02 03:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Intuitive Human-Drone Collaborative Navigation in Unknown Environments through Mixed Reality

要約

検査、捜索救助、および監視タスクにおける航空ロボットの広範な統合を考慮すると、直感的な人間ドローンインターフェイスを設計するための需要が高まっています。
これらは、ドローンナビゲーション中のユーザーの相互作用とコラボレーションプロセスを合理化および強化し、最終的にミッションの成功を促進し、ユーザーの入力に対応することを目的としています。
この論文では、(a)ヘッドマウントディスプレイ(HMD)とロボットを装備したヒトと(b)単純なコマンドを介して、単純なコマンドを介して知られていない協力的なナビゲーションで有効な人間のドローンインタラクティブおよびコラボレーションナビゲーションを備えたヘッドマウントディスプレイ(HMD)と(b)有効化された人間の空間的情報と表現を共有することにより、(a)人間のドローンの空間的認識を高めることを目的とした、新しい人間ドローンの混合現実インターフェイスを紹介します。
シミュレートされた災害後シナリオでの広範なユーザー調査と実験を通じて、そのパフォーマンスを従来の一人称ビュー(FPV)制御システムと比較することで、フレームワークを検証します。
さらに、複数のユーザーの複数のテストは、システムとの直感的で自然な相互作用を提供する提案されたソリューションの利点を強調しています。
これは、ドローンナビゲーションミッション中に人間を支援するソリューションの能力を示しており、安全で効果的な実行を確保しています。

要約(オリジナル)

Considering the widespread integration of aerial robots in inspection, search and rescue, and monitoring tasks, there is a growing demand to design intuitive human-drone interfaces. These aim to streamline and enhance the user interaction and collaboration process during drone navigation, ultimately expediting mission success and accommodating users’ inputs. In this paper, we present a novel human-drone mixed reality interface that aims to (a) increase human-drone spatial awareness by sharing relevant spatial information and representations between the human equipped with a Head Mounted Display (HMD) and the robot and (b) enable safer and intuitive human-drone interactive and collaborative navigation in unknown environments beyond the simple command and control or teleoperation paradigm. We validate our framework through extensive user studies and experiments in a simulated post-disaster scenarios, comparing its performance against a traditional First-Person View (FPV) control systems. Furthermore, multiple tests on several users underscore the advantages of the proposed solution, which offers intuitive and natural interaction with the system. This demonstrates the solution’s ability to assist humans during a drone navigation mission, ensuring its safe and effective execution.

arxiv情報

著者 Sanket A. Salunkhe,Pranav Nedunghat,Luca Morando,Nishanth Bobbili,Guanrui Li,Giuseppe Loianno
発行日 2025-04-02 04:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

EPIC: A Lightweight LiDAR-Based UAV Exploration Framework for Large-Scale Scenarios

要約

自律探査は、無人航空機(UAV)のさまざまな用途の根本的な問題です。
最近、LIDARベースの探査は、大規模環境の高精度ポイントクラウドマップを生成する能力により、大きな注目を集めています。
ポイントクラウドはナビゲーションにとって本質的に有益ですが、多くの既存の探査方法は、さらに多くの場合、多くの場合、環境表現に依存しています。
この信頼は、主にコストのかかる衝突チェックのために、フロンティアの検出または情報ゲイン計算の必要性と、メモリ集約的な占有グリッドマップとポイントクラウドでの直接のパス計画の高い計算複雑さに依存する2つの主な理由に由来しています。
これらの制限に対処するために、ポイントクラウドデータを直接悪用して大規模な環境を探索する軽量のLIDARベースのUAV探査フレームワークであるEpicを提示します。
Epicは、ポイントクラウドの品質から直接導出された新しい観測マップを導入し、包括的な探査機能を維持しながら、グローバル占有グリッドマップの必要性を排除します。
また、ポイントクラウドで直接動作する増分トポロジグラフ構造方法も提案し、大規模な環境でのリアルタイムパス計画を可能にします。
これらのコンポーネントを活用すると、アジャイルおよびエネルギー効率の高い軌跡を生成する階層計画フレームワークを構築し、ほとんどの既存の方法と比較してメモリ消費と計算時間を大幅に削減します。
広範なシミュレーションと現実世界の実験は、叙事詩がより速い探索を達成し、最先端の方法と比較してメモリ消費を大幅に削減することを示しています。

要約(オリジナル)

Autonomous exploration is a fundamental problem for various applications of unmanned aerial vehicles (UAVs). Recently, LiDAR-based exploration has gained significant attention due to its ability to generate high-precision point cloud maps of large-scale environments. While the point clouds are inherently informative for navigation, many existing exploration methods still rely on additional, often expensive, environmental representations. This reliance stems from two main reasons: the need for frontier detection or information gain computation, which typically depends on memory-intensive occupancy grid maps, and the high computational complexity of path planning directly on point clouds, primarily due to costly collision checking. To address these limitations, we present EPIC, a lightweight LiDAR-based UAV exploration framework that directly exploits point cloud data to explore large-scale environments. EPIC introduces a novel observation map derived directly from the quality of point clouds, eliminating the need for global occupancy grid maps while preserving comprehensive exploration capabilities. We also propose an incremental topological graph construction method operating directly on point clouds, enabling real-time path planning in large-scale environments. Leveraging these components, we build a hierarchical planning framework that generates agile and energy-efficient trajectories, achieving significantly reduced memory consumption and computation time compared to most existing methods. Extensive simulations and real-world experiments demonstrate that EPIC achieves faster exploration while significantly reducing memory consumption compared to state-of-the-art methods.

arxiv情報

著者 Shuang Geng,Zelin Ning,Fu Zhang,Boyu Zhou
発行日 2025-04-02 06:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Teaching Robots to Handle Nuclear Waste: A Teleoperation-Based Learning Approach<

要約

このペーパーでは、人間の専門知識をロボットの精度と統合して、ロボットが人間のオペレーターから学んだスキルを自律的に実行できるようにする、テレオ操作(LFT)フレームワークからの学習を紹介します。
提案されたフレームワークは、核廃棄物処理タスクの課題に対処します。これには、多くの場合、反復的で綿密な操作操作が含まれます。
テレオ操作中にオペレーターの動きと操作力をキャプチャすることにより、フレームワークはこのデータを利用して、人間のスキルを複製および一般化できる機械学習モデルを訓練します。
繰り返しがありながら正確な軌道と力制御が必要な代表的なシナリオとして選択された電源プラグ挿入タスクへのアプリケーションを通じて、LFTフレームワークの有効性を検証します。
実験結果は、継続的なオペレーターの関与への依存を減らしながら、タスク効率の大幅な改善を強調しています。

要約(オリジナル)

This paper presents a Learning from Teleoperation (LfT) framework that integrates human expertise with robotic precision to enable robots to autonomously perform skills learned from human operators. The proposed framework addresses challenges in nuclear waste handling tasks, which often involve repetitive and meticulous manipulation operations. By capturing operator movements and manipulation forces during teleoperation, the framework utilizes this data to train machine learning models capable of replicating and generalizing human skills. We validate the effectiveness of the LfT framework through its application to a power plug insertion task, selected as a representative scenario that is repetitive yet requires precise trajectory and force control. Experimental results highlight significant improvements in task efficiency, while reducing reliance on continuous operator involvement.

arxiv情報

著者 Joong-Ku Lee,Hyeonseok Choi,Young Soo Park,Jee-Hwan Ryu
発行日 2025-04-02 06:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

From Shadows to Safety: Occlusion Tracking and Risk Mitigation for Urban Autonomous Driving

要約

自律車両(AVS)は、閉塞と知覚の制限が重要な不確実性をもたらす動的な都市環境をナビゲートする必要があります。
この研究は、これらの課題に対処するために、リスク認識のモーション計画と閉塞追跡に既存のアプローチに基づいて拡張されています。
以前の研究では、閉塞追跡とリスク評価のための個々の方法が開発されていますが、これらの手法を統合する包括的な方法は完全には検討されていません。
したがって、閉塞された領域を追跡し、潜在的な危険を予測するための連続的な推論を組み込むことにより、ファントムエージェント中心のモデルを強化します。
私たちのモデルは、それぞれが異なる動作プロファイルを持つ多様なファントムエージェントをモデル化することにより、現実的なシナリオ表現とコンテキスト対応リスク評価を可能にします。
シミュレーションは、提案されたアプローチが状況認識を改善し、積極的な安全性と効率的な交通流のバランスをとることを示しています。
これらの結果は当社の方法の可能性を強調していますが、その実現可能性と一般化可能性を確認するために、実際のシナリオでの検証が必要です。
確立された方法論を活用し、進歩することにより、この作業は、複雑な都市環境でより安全で信頼性の高いAV計画に貢献します。
さらなる研究をサポートするために、私たちの方法は、https://github.com/tum-avs/occlusuisawaremotionplanningでオープンソースソフトウェアとして入手できます。

要約(オリジナル)

Autonomous vehicles (AVs) must navigate dynamic urban environments where occlusions and perception limitations introduce significant uncertainties. This research builds upon and extends existing approaches in risk-aware motion planning and occlusion tracking to address these challenges. While prior studies have developed individual methods for occlusion tracking and risk assessment, a comprehensive method integrating these techniques has not been fully explored. We, therefore, enhance a phantom agent-centric model by incorporating sequential reasoning to track occluded areas and predict potential hazards. Our model enables realistic scenario representation and context-aware risk evaluation by modeling diverse phantom agents, each with distinct behavior profiles. Simulations demonstrate that the proposed approach improves situational awareness and balances proactive safety with efficient traffic flow. While these results underline the potential of our method, validation in real-world scenarios is necessary to confirm its feasibility and generalizability. By utilizing and advancing established methodologies, this work contributes to safer and more reliable AV planning in complex urban environments. To support further research, our method is available as open-source software at: https://github.com/TUM-AVS/OcclusionAwareMotionPlanning

arxiv情報

著者 Korbinian Moller,Luis Schwarzmeier,Johannes Betz
発行日 2025-04-02 06:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Pedestrian-Aware Motion Planning for Autonomous Driving in Complex Urban Scenarios

要約

複雑な都市部のような不確実な環境でのモーション計画は、自律車(AVS)にとって重要な課題です。
私たちの研究の目的は、安全で効率的な車両行動を維持しながら、AVSが複数の歩行者を使用して混雑した予測不可能なシナリオをどのようにナビゲートできるかを調査することです。
これまでのところ、ほとんどの研究は、静的または決定論的な交通参加者の行動に集中してきました。
このペーパーでは、現実的な歩行者の行動をリスク認識モーションプランナーとシミュレートするための社会的力の原則を組み合わせることにより、混雑した空間でのモーション計画のための新しいアルゴリズムを紹介します。
この新しいアルゴリズムを2Dシミュレーション環境で評価して、AV -Pedestrianの相互作用を厳密に評価し、特に非常に混雑した都市環境で、このレベルのパフォーマンスを達成するために、アルゴリズムが安全で効率的で適応的なモーション計画を可能にすることを実証します。
この研究は、リアルタイムの制約を考慮しておらず、これまでのところシミュレーションでのみ示されています。
混雑したシナリオでの認識、計画、制御パイプライン全体を調査するために、実際の車のAVSの完全なソフトウェアスタックで新しいアルゴリズムを調査するには、さらなる研究が必要です。
この研究で開発されたコードを、さらなる研究と開発のためのオープンソースリソースとしてリリースします。
次のリンクでアクセスできます:https://github.com/tum-avs/pedestrianawaremotionplanning

要約(オリジナル)

Motion planning in uncertain environments like complex urban areas is a key challenge for autonomous vehicles (AVs). The aim of our research is to investigate how AVs can navigate crowded, unpredictable scenarios with multiple pedestrians while maintaining a safe and efficient vehicle behavior. So far, most research has concentrated on static or deterministic traffic participant behavior. This paper introduces a novel algorithm for motion planning in crowded spaces by combining social force principles for simulating realistic pedestrian behavior with a risk-aware motion planner. We evaluate this new algorithm in a 2D simulation environment to rigorously assess AV-pedestrian interactions, demonstrating that our algorithm enables safe, efficient, and adaptive motion planning, particularly in highly crowded urban environments – a first in achieving this level of performance. This study has not taken into consideration real-time constraints and has been shown only in simulation so far. Further studies are needed to investigate the novel algorithm in a complete software stack for AVs on real cars to investigate the entire perception, planning and control pipeline in crowded scenarios. We release the code developed in this research as an open-source resource for further studies and development. It can be accessed at the following link: https://github.com/TUM-AVS/PedestrianAwareMotionPlanning

arxiv情報

著者 Korbinian Moller,Truls Nyberg,Jana Tumova,Johannes Betz
発行日 2025-04-02 06:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

DF-Calib: Targetless LiDAR-Camera Calibration via Depth Flow

要約

これらの2つのセンサーをロボットシステムに統合して、堅牢な知覚を実現するためには、Lidar-Cameraの正確なキャリブレーションが重要です。
自律運転などのアプリケーションでは、オンラインのターゲットレスキャリブレーションにより、余分なターゲットなしで機械的振動からの迅速なセンサーの誤補正を可能にします。
ただし、既存の方法は、LIDARおよびカメラデータから一貫した機能を効果的に抽出し、顕著な地域の優先順位付けに失敗し、クロスモーダルアライメントの堅牢性を損なう制限を示します。
これらの問題に対処するために、モダリティの深さフロー推定問題としてキャリブレーションを再フォーマルするLidar-Cameraキャリブレーション法であるDF-Calibを提案します。
DF-CALIBは、カメラ画像から密な深度マップを推定し、共有機能エンコーダーを使用して一貫した深さまでの深さの特徴を抽出し、2D-3Dクロスモーダルギャップを効果的に橋渡しするスパースライダー投影深度マップを完成させます。
さらに、有効なピクセルに優先順位を付けるための信頼性マップを導入し、知覚的に加重されたスパースフロー損失を提案して、深さの流れの推定を強化します。
複数のデータセットにわたる実験結果は、その精度と一般化を検証し、DF-CALIBは0.635cmの平均翻訳誤差を達成し、キッティデータセットで0.045度の回転誤差を達成します。

要約(オリジナル)

Precise LiDAR-camera calibration is crucial for integrating these two sensors into robotic systems to achieve robust perception. In applications like autonomous driving, online targetless calibration enables a prompt sensor misalignment correction from mechanical vibrations without extra targets. However, existing methods exhibit limitations in effectively extracting consistent features from LiDAR and camera data and fail to prioritize salient regions, compromising cross-modal alignment robustness. To address these issues, we propose DF-Calib, a LiDAR-camera calibration method that reformulates calibration as an intra-modality depth flow estimation problem. DF-Calib estimates a dense depth map from the camera image and completes the sparse LiDAR projected depth map, using a shared feature encoder to extract consistent depth-to-depth features, effectively bridging the 2D-3D cross-modal gap. Additionally, we introduce a reliability map to prioritize valid pixels and propose a perceptually weighted sparse flow loss to enhance depth flow estimation. Experimental results across multiple datasets validate its accuracy and generalization,with DF-Calib achieving a mean translation error of 0.635cm and rotation error of 0.045 degrees on the KITTI dataset.

arxiv情報

著者 Shu Han,Xubo Zhu,Ji Wu,Ximeng Cai,Wen Yang,Huai Yu,Gui-Song Xia
発行日 2025-04-02 07:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Can DeepSeek Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery

要約

Deepseekシリーズは、その効率的なトレーニングパラダイムと強力な推論能力により、一般的なシーンの理解、質問(QA)、およびテキスト生成タスクの優れたパフォーマンスを実証しています。
この研究では、単一のフレーズQA、視覚QA、詳細な説明などのタスクに焦点を当てたロボット手術シナリオにおけるDeepSeekモデルの対話能力を調査します。
単一のフレーズQAタスクには、手術器具認識、アクション理解、空間的位置分析などのサブタスクがさらに含まれます。
対応するダイアログデータとともに、Endovis18やChoLect50を含む公開されているデータセットを使用して、広範な評価を実施します。
私たちの包括的な評価結果は、特定のプロンプトが提供された場合、DeepSeek-V3は手術器具および組織認識タスクでうまく機能することを示していますが、DeepSeek-V3は空間的位置分析に大きな制限を示し、外科的行動を正確に理解するのに苦労しています。
さらに、我々の調査結果は、一般的なプロンプトの下で、DeepSeek-V3には、グローバルな外科的概念を効果的に分析する能力が欠けており、外科シナリオに関する詳細な洞察を提供できないことが明らかになりました。
観察に基づいて、DeepSeek-V3は、手術固有のデータセットを微調整することなく、外科的文脈での視覚言語タスクの準備ができていないと主張します。

要約(オリジナル)

DeepSeek series have demonstrated outstanding performance in general scene understanding, question-answering (QA), and text generation tasks, owing to its efficient training paradigm and strong reasoning capabilities. In this study, we investigate the dialogue capabilities of the DeepSeek model in robotic surgery scenarios, focusing on tasks such as Single Phrase QA, Visual QA, and Detailed Description. The Single Phrase QA tasks further include sub-tasks such as surgical instrument recognition, action understanding, and spatial position analysis. We conduct extensive evaluations using publicly available datasets, including EndoVis18 and CholecT50, along with their corresponding dialogue data. Our comprehensive evaluation results indicate that, when provided with specific prompts, DeepSeek-V3 performs well in surgical instrument and tissue recognition tasks However, DeepSeek-V3 exhibits significant limitations in spatial position analysis and struggles to understand surgical actions accurately. Additionally, our findings reveal that, under general prompts, DeepSeek-V3 lacks the ability to effectively analyze global surgical concepts and fails to provide detailed insights into surgical scenarios. Based on our observations, we argue that the DeepSeek-V3 is not ready for vision-language tasks in surgical contexts without fine-tuning on surgery-specific datasets.

arxiv情報

著者 Boyi Ma,Yanguang Zhao,Jie Wang,Guankun Wang,Kun Yuan,Tong Chen,Long Bai,Hongliang Ren
発行日 2025-04-02 07:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO | コメントする