Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification

要約

過去 10 年間、コンピューター ビジョンでは、さまざまなトレーニングと学習のアプローチが確立されてきました。
敵対的学習、対比学習、拡散ノイズ除去学習、通常の再構成学習などの手法が標準となっており、さまざまな視覚タスクにわたるネットワークの完全トレーニングまたは事前トレーニングに広く採用されている最先端の手法となっています。
微調整アプローチの探求が現在の焦点として浮上しており、低ランク適応 (LoRA) などの方法論に代表されるように、全体的なパフォーマンスを向上させながら、GPU メモリの使用量と時間コストを削減して効率的なモデル チューニングのニーズに対処しています。
重要な疑問が生じます。どの事前トレーニング技術が最適な結果をもたらしますか?敵対的、対照的、再構成、または拡散ノイズ除去?
微調整の複雑さを調整すると、これらのアプローチのパフォーマンスはどのように変化するのでしょうか?
この研究は、独立同一分布 (IID) コホートにおけるニューラル ネットワークの学習プロセスを強化するための事前トレーニング手法と微調整戦略の利点を解明することを目的としています。
フルチューニング、デコーダチューニング、トップレベルチューニング、LoRAを使用した線形パラメータの微調整など、さまざまなケースを検証することで、微調整の重要性を強調します。
精度、時間コスト、メモリ効率などの指標を活用して、モデルのパフォーマンスと効率の体系的な概要が表示されます。
私たちの発見を実証的に示すために、596人の被験者で構成されるTOP-OSLOコホートを使用して、さまざまな3D畳み込みニューラルネットワーク(CNN)アーキテクチャを使用して傍帯状溝(PCS)を含むマルチタスクのセグメンテーション分類の課題に焦点を当てます。

要約(オリジナル)

In the last decade, computer vision has witnessed the establishment of various training and learning approaches. Techniques like adversarial learning, contrastive learning, diffusion denoising learning, and ordinary reconstruction learning have become standard, representing state-of-the-art methods extensively employed for fully training or pre-training networks across various vision tasks. The exploration of fine-tuning approaches has emerged as a current focal point, addressing the need for efficient model tuning with reduced GPU memory usage and time costs while enhancing overall performance, as exemplified by methodologies like low-rank adaptation (LoRA). Key questions arise: which pre-training technique yields optimal results – adversarial, contrastive, reconstruction, or diffusion denoising? How does the performance of these approaches vary as the complexity of fine-tuning is adjusted? This study aims to elucidate the advantages of pre-training techniques and fine-tuning strategies to enhance the learning process of neural networks in independent identical distribution (IID) cohorts. We underscore the significance of fine-tuning by examining various cases, including full tuning, decoder tuning, top-level tuning, and fine-tuning of linear parameters using LoRA. Systematic summaries of model performance and efficiency are presented, leveraging metrics such as accuracy, time cost, and memory efficiency. To empirically demonstrate our findings, we focus on a multi-task segmentation-classification challenge involving the paracingulate sulcus (PCS) using different 3D Convolutional Neural Network (CNN) architectures by using the TOP-OSLO cohort comprising 596 subjects.

arxiv情報

著者 Michail Mamalakis,Héloïse de Vareilles,Shun-Chin Jim Wu,Ingrid Agartz,Lynn Egeland Mørch-Johnsen,Jane Garrison,Jon Simons,Pietro Lio,John Suckling,Graham Murray
発行日 2024-05-29 15:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク