Task-Aware Asynchronous Multi-Task Model with Class Incremental Contrastive Learning for Surgical Scene Understanding

要約

目的: ツールと組織の相互作用の認識と自動レポート生成による手術シーンの理解は、ロボット手術における術中ガイダンス、意思決定、および術後分析において重要な役割を果たすことができます。
ただし、患者間および患者内の変動を伴うさまざまな手術間のドメインシフトと、新しい器具の外観により、モデル予測のパフォーマンスが低下します。
さらに、複数のモデルからの出力が必要になるため、計算コストが高くなり、リアルタイムのパフォーマンスに影響を与える可能性があります。
方法論: マルチタスク学習 (MTL) モデルは、ドメイン シフトの問題を扱う手術レポートの生成とツールと組織の相互作用の予測のために提案されています。
共有特徴抽出器、キャプション用のメッシュ トランスフォーマー ブランチ、およびツールと組織の相互作用予測用のグラフ アテンション ブランチのモデル形式。
共有特徴エクストラクタは、クラス増分対比学習 (CICL) を採用して、ターゲット ドメインでの強度シフトと新しいクラスの出現に取り組みます。
モデル学習を強化するために、ガウスのラプラシアン (LoG) ベースのカリキュラム学習を共有ブランチとタスク固有のブランチの両方に設計します。
タスク認識非同期 MTL 最適化手法を組み込んで、共有重みを微調整し、両方のタスクを最適に収束させます。
結果: タスク認識最適化と微調整技術を使用してトレーニングされた提案された MTL モデルは、ターゲット ドメインの両方のタスクでバランスの取れたパフォーマンス (シーン キャプションの BLEU スコア 0.4049、インタラクション検出の精度 0.3508) を報告しました。
ドメイン適応におけるシングルタスクモデル。
結論: 提案されたマルチタスク モデルは、ドメイン シフトに適応し、ターゲット ドメインに新しい機器を組み込み、単一タスク モデルと同等のツールと組織の相互作用の検出とレポート生成を実行することができました。

要約(オリジナル)

Purpose: Surgery scene understanding with tool-tissue interaction recognition and automatic report generation can play an important role in intra-operative guidance, decision-making and postoperative analysis in robotic surgery. However, domain shifts between different surgeries with inter and intra-patient variation and novel instruments’ appearance degrade the performance of model prediction. Moreover, it requires output from multiple models, which can be computationally expensive and affect real-time performance. Methodology: A multi-task learning (MTL) model is proposed for surgical report generation and tool-tissue interaction prediction that deals with domain shift problems. The model forms of shared feature extractor, mesh-transformer branch for captioning and graph attention branch for tool-tissue interaction prediction. The shared feature extractor employs class incremental contrastive learning (CICL) to tackle intensity shift and novel class appearance in the target domain. We design Laplacian of Gaussian (LoG) based curriculum learning into both shared and task-specific branches to enhance model learning. We incorporate a task-aware asynchronous MTL optimization technique to fine-tune the shared weights and converge both tasks optimally. Results: The proposed MTL model trained using task-aware optimization and fine-tuning techniques reported a balanced performance (BLEU score of 0.4049 for scene captioning and accuracy of 0.3508 for interaction detection) for both tasks on the target domain and performed on-par with single-task models in domain adaptation. Conclusion: The proposed multi-task model was able to adapt to domain shifts, incorporate novel instruments in the target domain, and perform tool-tissue interaction detection and report generation on par with single-task models.

arxiv情報

著者 Lalithkumar Seenivasan,Mobarakol Islam,Mengya Xu,Chwee Ming Lim,Hongliang Ren
発行日 2022-11-28 14:08:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO, eess.IV パーマリンク