要約
最近の深層学習モデルは、幼児の脳分析において大きな注目を集めています。
これらのモデルは、半教師ありテクニック (例: 時間的アンサンブル、意地悪な教師) などの最先端のパフォーマンスを実行しています。
ただし、これらのモデルは、長距離情報を収集するためにスタックされたローカル オペレーターを備えたエンコーダー/デコーダー構造に依存しており、ローカル オペレーターにより効率と有効性が制限されます。
さらに、$MRI$ データには、$T1$ や $T2$ などのさまざまな組織特性 ($TPs$) が含まれています。
これらのモデルの主な制限の 1 つは、両方のデータをセグメント プロセスへの入力として使用することです。つまり、モデルはデータセット上で 1 回トレーニングされるため、推論中に多くの計算量とメモリ要件が必要になります。
この研究では、3D-DenseUNet と呼ばれる新しい深層学習モデルを設計することで上記の制限に対処します。このモデルは、空間情報損失の問題を解決するためにダウンサンプリングで適応可能なグローバル集約ブロックとして機能します。
セルフ アテンション モジュールは、ダウンサンプリング ブロックをアップサンプリング ブロックに接続し、空間とチャネルの 3 次元で特徴マップを統合し、モデルの表現能力と識別能力を効果的に向上させます。
さらに、ラベル予測の代わりにモデルの重みを要約する、Two Independent Teachers ($2IT$) と呼ばれる新しい方法を提案します。
各教師モデルは、それぞれ異なるタイプの脳データ $T1$ と $T2$ でトレーニングされます。
次に、ヒューズ モデルを追加してテストの精度を向上させ、ネットワーク アーキテクチャを変更することなく、Temporal Ensembling 法と比較して少ないパラメーターとラベルでトレーニングできるようにします。
実験結果は、提案された方法の有効性を示しています。
要約(オリジナル)
Recent deep learning models have attracted substantial attention in infant brain analysis. These models have performed state-of-the-art performance, such as semi-supervised techniques (e.g., Temporal Ensembling, mean teacher). However, these models depend on an encoder-decoder structure with stacked local operators to gather long-range information, and the local operators limit the efficiency and effectiveness. Besides, the $MRI$ data contain different tissue properties ($TPs$) such as $T1$ and $T2$. One major limitation of these models is that they use both data as inputs to the segment process, i.e., the models are trained on the dataset once, and it requires much computational and memory requirements during inference. In this work, we address the above limitations by designing a new deep-learning model, called 3D-DenseUNet, which works as adaptable global aggregation blocks in down-sampling to solve the issue of spatial information loss. The self-attention module connects the down-sampling blocks to up-sampling blocks, and integrates the feature maps in three dimensions of spatial and channel, effectively improving the representation potential and discriminating ability of the model. Additionally, we propose a new method called Two Independent Teachers ($2IT$), that summarizes the model weights instead of label predictions. Each teacher model is trained on different types of brain data, $T1$ and $T2$, respectively. Then, a fuse model is added to improve test accuracy and enable training with fewer parameters and labels compared to the Temporal Ensembling method without modifying the network architecture. Empirical results demonstrate the effectiveness of the proposed method.
arxiv情報
著者 | Afifa Khaled,Ahmed A. Mubarak,Kun He |
発行日 | 2023-06-09 08:22:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google