DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability

要約

この研究では、特に地球科学における DINOv2 の応用に焦点を当てて、岩石サンプルの CT スキャン画像の解釈可能性、分類、およびセグメンテーションを調査します。
私たちはさまざまなセグメンテーション技術を比較して、地質画像解析における有効性、効率性、適応性を評価しました。
評価された手法には、Otsu しきい値処理手法、クラスタリング手法 (K 平均法およびファジィ C 平均法)、教師あり機械学習アプローチ (ランダム フォレスト)、深層学習手法 (UNet および DINOv2) が含まれます。
10 個のバイナリ砂岩データセットと 3 つのマルチクラス方解石データセットを使用して、これらの方法をテストしました。
まず、地球科学の文脈における DINOv2 の機能の徹底的な解釈可能性分析を提供し、CT スキャンされた岩石データを処理するためのその適合性と固有の能力について説明します。
分類に関しては、すぐに使用できる DINOv2 は、CT スキャンが元のトレーニング セットから外れている場合でも、岩石画像を完全に分類する優れた機能を示しています。
セグメンテーションに関しては、しきい値処理と教師なしの方法は高速ではありますが、画像の前処理にもかかわらずパフォーマンスが低くなりますが、教師ありの方法はより良い結果を示します。
深層学習の計算要求を強調しますが、最小限の介入、優れた一般化、および追加の画像前処理なしでのパフォーマンスを強調します。
さらに、ネットワークの深さまたはパラメーターの数とそのパフォーマンスの間に相関関係がないことも観察されています。
私たちの結果は、LoRA で微調整された DINOv2 が分布外セグメンテーションで優れており、マルチクラス セグメンテーションでは他の方法よりも大幅に優れていることを示しています。
これらの方法を体系的に比較することにより、細心の注意と労力のかかるセグメンテーション タスクに対して最も効率的な戦略を特定します。
DINOv2 は有利であることが証明され、比較的小さなトレーニング セットに対して「グラウンドトゥルースよりも優れている」と表現できるセグメンテーションを実現します。

要約(オリジナル)

This study investigates the interpretability, classification, and segmentation of CT-scan images of rock samples, with a particular focus on the application of DINOv2 within Geosciences. We compared various segmentation techniques to evaluate their efficacy, efficiency, and adaptability in geological image analysis. The methods assessed include the Otsu thresholding method, clustering techniques (K-means and fuzzy C-means), a supervised machine learning approach (Random Forest), and deep learning methods (UNet and DINOv2). We tested these methods using ten binary sandstone datasets and three multi-class calcite datasets. To begin, we provide a thorough interpretability analysis of DINOv2’s features in the geoscientific context, discussing its suitability and inherent ability to process CT-scanned rock data. In terms of classification, the out-of-the-box DINOv2 demonstrates an impressive capability to perfectly classify rock images, even when the CT scans are out of its original training set. Regarding segmentation, thresholding and unsupervised methods, while fast, perform poorly despite image preprocessing, whereas supervised methods show better results. We underscore the computational demands of deep learning but highlight its minimal intervention, superior generalization, and performance without additional image preprocessing. Additionally, we observe a lack of correlation between a network’s depth or the number of parameters and its performance. Our results show that a LoRA fine-tuned DINOv2 excels in out-of-distribution segmentation and significantly outperforms other methods in multi-class segmentation. By systematically comparing these methods, we identify the most efficient strategy for meticulous and laborious segmentation tasks. DINOv2 proves advantageous, achieving segmentations that could be described as ‘better than ground-truth’ against relatively small training sets.

arxiv情報

著者 Florent Brondolo,Samuel Beaussant
発行日 2024-07-25 15:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.geo-ph パーマリンク