要約
アクションのセグメンテーションは、高レベルのプロセス分析における困難なタスクであり、通常はさまざまなセンサーから取得したビデオまたは運動学データに対して実行されます。
この研究では、運動学データのアクション セグメンテーションに関連する 2 つの貢献を紹介します。
まず、運動学データ用に特別に設計された Multi-Stage Temporal Convolutional Recurrent Networks (MS-TCRNet) の 2 つのバージョンを紹介します。
このアーキテクチャは、ステージ内正則化を備えた予測ジェネレーターと双方向 LSTM または GRU ベースのリファインメント ステージで構成されます。
次に、ワールド フレーム回転とハンド反転という 2 つの新しいデータ拡張手法を提案します。これらは、運動学データの強力な幾何学的構造を利用して、アルゴリズムのパフォーマンスと堅牢性を向上させます。
私たちは、外科縫合タスクの 3 つのデータセットに基づいてモデルを評価します。可変組織シミュレーション (VTS) データセットと新しく導入された腸修復シミュレーション (BRS) データセットです。どちらも私たちが収集したオープン手術シミュレーション データセットです。
ISI Gesture and Skill Assessment Working Set (JIGSAWS)、ロボット手術のよく知られたベンチマーク。
私たちの手法は最先端のパフォーマンスを達成しました。
要約(オリジナル)
Action segmentation is a challenging task in high-level process analysis, typically performed on video or kinematic data obtained from various sensors. This work presents two contributions related to action segmentation on kinematic data. Firstly, we introduce two versions of Multi-Stage Temporal Convolutional Recurrent Networks (MS-TCRNet), specifically designed for kinematic data. The architectures consist of a prediction generator with intra-stage regularization and Bidirectional LSTM or GRU-based refinement stages. Secondly, we propose two new data augmentation techniques, World Frame Rotation and Hand Inversion, which utilize the strong geometric structure of kinematic data to improve algorithm performance and robustness. We evaluate our models on three datasets of surgical suturing tasks: the Variable Tissue Simulation (VTS) Dataset and the newly introduced Bowel Repair Simulation (BRS) Dataset, both of which are open surgery simulation datasets collected by us, as well as the JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS), a well-known benchmark in robotic surgery. Our methods achieved state-of-the-art performance.
arxiv情報
著者 | Adam Goldbraikh,Omer Shubi,Or Rubin,Carla M Pugh,Shlomi Laufer |
発行日 | 2024-07-12 15:48:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google