DaFoEs: Mixing Datasets towards the generalization of vision-state deep-learning Force Estimation in Minimally Invasive Robotic Surgery

要約

低侵襲ロボット手術 (MIRS) における安全なインタラクション中の接触力を正確に決定することは、まだ未解決の研究課題です。
手術ビデオからの術後定性分析にヒントを得た、クロスモダリティ データ駆動型ディープ ニューラル ネットワーク モデルの使用は、センサーレスの力の傾向を予測するための最新のアプローチの 1 つです。
ただし、これらの方法は現在利用できない大規模で可変のデータセットに必要です。
この論文では、ディープ ニューラル モデルのトレーニングのための可変ソフト環境を備えた新しい視覚触覚データセット (DaFoEs) を紹介します。
単一のデータセットからのバイアスを軽減するために、異なるセットアップで以前に検証されたデータセットを使用して、混合データセットトレーニング用のさまざまなビジョンおよび状態データ入力を一般化するパイプラインを提示します。
最後に、単一の入力または一連の入力を使用して腹腔鏡ツールによって加えられる力を予測するための可変エンコーダー/デコーダー アーキテクチャを紹介します。
入力シーケンスには、接頭辞 R が付いた名前のリカレント デコーダーと、ツールの加速を表す新しい時間サンプリングを使用します。
トレーニング中に、単一データセットのトレーニングはトレーニング データ ドメインに過剰適合する傾向があるが、結果を新しいドメインに変換するのが難しいことを示しました。
ただし、データセットの混合により、再発モデルと非再発モデルでそれぞれ平均相対推定力誤差が 5% と 12% という良好な変換が得られます。
また、私たちの方法では、利用可能なデータ量が 150% 増加するため、力推定における変圧器の有効性が最大 ~15% までわずかに増加します。
結論として、我々は、MIRS における視覚状態の力推定のための実験設定を混合することが、問題の一般的な解決に向けた可能なアプローチであることを実証します。

要約(オリジナル)

Precisely determining the contact force during safe interaction in Minimally Invasive Robotic Surgery (MIRS) is still an open research challenge. Inspired by post-operative qualitative analysis from surgical videos, the use of cross-modality data driven deep neural network models has been one of the newest approaches to predict sensorless force trends. However, these methods required for large and variable datasets which are not currently available. In this paper, we present a new vision-haptic dataset (DaFoEs) with variable soft environments for the training of deep neural models. In order to reduce the bias from a single dataset, we present a pipeline to generalize different vision and state data inputs for mixed dataset training, using a previously validated dataset with different setup. Finally, we present a variable encoder-decoder architecture to predict the forces done by the laparoscopic tool using single input or sequence of inputs. For input sequence, we use a recurrent decoder, named with the prefix R, and a new temporal sampling to represent the acceleration of the tool. During our training, we demonstrate that single dataset training tends to overfit to the training data domain, but has difficulties on translating the results across new domains. However, dataset mixing presents a good translation with a mean relative estimated force error of 5% and 12% for the recurrent and non-recurrent models respectively. Our method, also marginally increase the effectiveness of transformers for force estimation up to a maximum of ~15%, as the volume of available data is increase by 150%. In conclusion, we demonstrate that mixing experimental set ups for vision-state force estimation in MIRS is a possible approach towards the general solution of the problem.

arxiv情報

著者 Mikel De Iturrate Reyzabal,Mingcong Chen,Wei Huang,Sebastien Ourselin,Hongbin Liu
発行日 2024-01-17 14:39:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク