Fine-tuning a Multiple Instance Learning Feature Extractor with Masked Context Modelling and Knowledge Distillation

要約

スライド画像全体 (WSI) 分類のための複数インスタンス学習 (MIL) アルゴリズムの最初のステップは、入力画像を小さなパッチにタイリングし、事前トレーニングされた特徴抽出モデルによって生成された特徴ベクトルを計算することで構成されます。
ImageNet で監視しながら事前トレーニングされた特徴抽出モデルは、このドメインにうまく移行できることが証明されていますが、この事前トレーニング タスクでは、隣接するパッチの視覚情報が高度に相関していることが考慮されていません。
この観察に基づいて、\textit{知識蒸留によるマスクされたコンテキスト モデリング} を使用して特徴抽出モデルを微調整することで、下流の MIL 分類を増やすことを提案します。
このタスクでは、より大きなコンテキスト ウィンドウでマスクされたパッチを予測することで、特徴抽出モデルが微調整されます。
入力画像の再構成には強力な画像生成モデルが必要であり、私たちの目標は現実的に見える画像パッチを生成することではないため、代わりに大規模な教師ネットワークによって生成された特徴ベクトルを予測します。
提案されたタスクの単一エポックは、MIL シナリオで使用される場合、特徴抽出モデルのダウンストリーム パフォーマンスを向上させるのに十分であり、教師モデルのダウンストリーム パフォーマンスを上回ることさえできますが、その一方で、かなり小さく、必要なコンピューティングの一部が必要となります。

要約(オリジナル)

The first step in Multiple Instance Learning (MIL) algorithms for Whole Slide Image (WSI) classification consists of tiling the input image into smaller patches and computing their feature vectors produced by a pre-trained feature extractor model. Feature extractor models that were pre-trained with supervision on ImageNet have proven to transfer well to this domain, however, this pre-training task does not take into account that visual information in neighboring patches is highly correlated. Based on this observation, we propose to increase downstream MIL classification by fine-tuning the feature extractor model using \textit{Masked Context Modelling with Knowledge Distillation}. In this task, the feature extractor model is fine-tuned by predicting masked patches in a bigger context window. Since reconstructing the input image would require a powerful image generation model, and our goal is not to generate realistically looking image patches, we predict instead the feature vectors produced by a larger teacher network. A single epoch of the proposed task suffices to increase the downstream performance of the feature-extractor model when used in a MIL scenario, even capable of outperforming the downstream performance of the teacher model, while being considerably smaller and requiring a fraction of its compute.

arxiv情報

著者 Juan I. Pisula,Katarzyna Bozek
発行日 2024-03-08 14:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク