ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling

要約

毎日、世界中で数え切れないほどの手術が手術室 (OR) の個別の環境で行われており、それぞれの手術室の設定だけでなく、使用される人員、ツール、機器も異なります。
この固有の多様性は、初期のトレーニング データセットを超えてモデルを一般化する必要があるため、OR の全体的な理解を達成する上で大きな課題を引き起こします。
このギャップを減らすために、総合的な OR ドメイン モデリング用に設計された高度なビジョン言語モデルである ORacle を導入します。これは、マルチビュー機能と時間機能を組み込んでおり、推論中に外部知識を活用できるため、これまで見たことのない手術シナリオに適応できるようになります。
この機能は、トレーニング データセットを大幅に多様化する新しいデータ拡張フレームワークによってさらに強化され、提供された知識を効果的に適用する Oracle の熟練度が保証されます。
厳密なテスト、シーン グラフ生成、および 4D-OR データセットでのダウンストリーム タスクにおいて、ORacle は最先端のパフォーマンスを実証するだけでなく、既存のモデルよりも少ないデータで実現します。
さらに、その適応力は、目に見えない景色、動作、道具や設備の外観を解釈する能力によって示されます。
これは、ORacle が OR ドメイン モデリングのスケーラビリティと手頃な価格を大幅に向上させる可能性を示し、外科データ サイエンスの将来の進歩への道を開きます。
承認され次第、コードとデータを公開します。

要約(オリジナル)

Every day, countless surgeries are performed worldwide, each within the distinct settings of operating rooms (ORs) that vary not only in their setups but also in the personnel, tools, and equipment used. This inherent diversity poses a substantial challenge for achieving a holistic understanding of the OR, as it requires models to generalize beyond their initial training datasets. To reduce this gap, we introduce ORacle, an advanced vision-language model designed for holistic OR domain modeling, which incorporates multi-view and temporal capabilities and can leverage external knowledge during inference, enabling it to adapt to previously unseen surgical scenarios. This capability is further enhanced by our novel data augmentation framework, which significantly diversifies the training dataset, ensuring ORacle’s proficiency in applying the provided knowledge effectively. In rigorous testing, in scene graph generation, and downstream tasks on the 4D-OR dataset, ORacle not only demonstrates state-of-the-art performance but does so requiring less data than existing models. Furthermore, its adaptability is displayed through its ability to interpret unseen views, actions, and appearances of tools and equipment. This demonstrates ORacle’s potential to significantly enhance the scalability and affordability of OR domain modeling and opens a pathway for future advancements in surgical data science. We will release our code and data upon acceptance.

arxiv情報

著者 Ege Özsoy,Chantal Pellegrini,Matthias Keicher,Nassir Navab
発行日 2024-04-10 14:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク