Evaluating the Task Generalization of Temporal Convolutional Networks for Surgical Gesture and Motion Recognition using Kinematic Data

要約

きめ細かいアクティビティ認識により、ロボット支援手術におけるスキル評価、自律性、エラー検出のための手順を説明可能な分析が可能になります。
しかし、既存の認識モデルは、運動学的データとビデオ データの両方を含む注釈付きデータセットの利用が限られており、目に見えない対象やタスクに一般化できないという問題があります。
手術ロボットからの運動学データは、閉塞やレンズの汚れなどの一般的なカメラの問題の影響を受けないため、安全性の監視と自律性にとって特に重要です。
私たちは、合計 28 人の被験者から得た 6 つのドライラボ手術タスクの集約データセットを活用して、運動学データのみを使用して、ジェスチャおよびモーション プリミティブ (MP) レベルでのアクティビティ認識モデルと個別のロボット アームをトレーニングします。
モデルは、LOUO (Leave-One-User-Out) および私たちが提案する LOTO (Leave-One-Task-Out) 相互検証方法を使用して評価され、それぞれ目に見えないユーザーとタスクに一般化する能力を評価します。
ジェスチャ認識モデルは、MP 認識モデルよりも高い精度と編集スコアを実現します。
ただし、MP を使用すると、目に見えないタスクをより適切に一般化できるモデルのトレーニングが可能になります。
また、左右のロボットアームに別々のモデルを学習させることで、より高いMP認識精度を実現できます。
タスクの一般化の場合、MP 認識モデルは、同様のタスクや同じデータセットからのタスクでトレーニングされた場合に最高のパフォーマンスを発揮します。

要約(オリジナル)

Fine-grained activity recognition enables explainable analysis of procedures for skill assessment, autonomy, and error detection in robot-assisted surgery. However, existing recognition models suffer from the limited availability of annotated datasets with both kinematic and video data and an inability to generalize to unseen subjects and tasks. Kinematic data from the surgical robot is particularly critical for safety monitoring and autonomy, as it is unaffected by common camera issues such as occlusions and lens contamination. We leverage an aggregated dataset of six dry-lab surgical tasks from a total of 28 subjects to train activity recognition models at the gesture and motion primitive (MP) levels and for separate robotic arms using only kinematic data. The models are evaluated using the LOUO (Leave-One-User-Out) and our proposed LOTO (Leave-One-Task-Out) cross validation methods to assess their ability to generalize to unseen users and tasks respectively. Gesture recognition models achieve higher accuracies and edit scores than MP recognition models. But, using MPs enables the training of models that can generalize better to unseen tasks. Also, higher MP recognition accuracy can be achieved by training separate models for the left and right robot arms. For task-generalization, MP recognition models perform best if trained on similar tasks and/or tasks from the same dataset.

arxiv情報

著者 Kay Hutchinson,Ian Reyes,Zongyu Li,Homa Alemzadeh
発行日 2023-06-28 21:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク