RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches

要約

米国では毎年1,400万件の大腸内視鏡検査が行われていますが、これらの大腸内視鏡検査のビデオは、ストレージの制約のために保存されていません(高解像度大腸内視鏡カメラの各ビデオは数十ギガバイトである可能性があります)。
代わりに、いくつかの関連する個々のフレームがドキュメント/レポートの目的で保存され、これらは現在の大腸内視鏡検査AIモデルがトレーニングされているフレームです。
大腸内視鏡検査のための新しい監視されていないドメイン翻訳方法を開発している間(例えば、実際の光学と仮想/CT大腸内視鏡検査を翻訳するため)、一時的な一貫性なしに個々のフレームに対して最初に機能するアプローチから始めることが典型的です。
個別フレームモデルが完成すると、追加の連続的なフレームが変更されたディープラーニングアーキテクチャを追加して、一時的な一貫性のために新しいモデルをゼロからトレーニングします。
ただし、一時的に一貫性のある深い学習モデルへのこの移行には、トレーニングのために大幅に多くの計算リソースとメモリリソースが必要です。
このホワイトペーパーでは、調整可能な時間パラメーターであるRT-GAN(Recurrent時間GAN)を備えた軽量ソリューションを提示します。これにより、個々のフレームベースのアプローチに時間的一貫性を追加して、トレーニング要件を5倍に削減します。結腸鏡検査での2つの挑戦的なユースケースでのアプローチの有効性を実証します。
また、上記のユースケースの大腸内視鏡検査用の最初の種類の時間データセットをリリースします。
データセット、付随するコード、および事前に処理されたモデルは、計算内視鏡検査プラットフォームGithub(https://github.com/nadeemlab/cep)で利用可能になります。
補足ビデオは、https://youtu.be/umvp-uixwwkで入手できます。

要約(オリジナル)

Fourteen million colonoscopies are performed annually just in the U.S. However, the videos from these colonoscopies are not saved due to storage constraints (each video from a high-definition colonoscope camera can be in tens of gigabytes). Instead, a few relevant individual frames are saved for documentation/reporting purposes and these are the frames on which most current colonoscopy AI models are trained on. While developing new unsupervised domain translation methods for colonoscopy (e.g. to translate between real optical and virtual/CT colonoscopy), it is thus typical to start with approaches that initially work for individual frames without temporal consistency. Once an individual-frame model has been finalized, additional contiguous frames are added with a modified deep learning architecture to train a new model from scratch for temporal consistency. This transition to temporally-consistent deep learning models, however, requires significantly more computational and memory resources for training. In this paper, we present a lightweight solution with a tunable temporal parameter, RT-GAN (Recurrent Temporal GAN), for adding temporal consistency to individual frame-based approaches that reduces training requirements by a factor of 5. We demonstrate the effectiveness of our approach on two challenging use cases in colonoscopy: haustral fold segmentation (indicative of missed surface) and realistic colonoscopy simulator video generation. We also release a first-of-its kind temporal dataset for colonoscopy for the above use cases. The datasets, accompanying code, and pretrained models will be made available on our Computational Endoscopy Platform GitHub (https://github.com/nadeemlab/CEP). The supplementary video is available at https://youtu.be/UMVP-uIXwWk.

arxiv情報

著者 Shawn Mathew,Saad Nadeem,Alvin C. Goh,Arie Kaufman
発行日 2025-05-13 16:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク