DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability

要約

コンピューター ビジョンの最近の進歩により、画像分析タスクが大幅に改善されました。
しかし、深層学習モデルは、ドメイン固有のデータが不足している可能性がある地球科学など、トレーニング分布外のドメインに適用すると、苦労することがよくあります。
この研究では、現代のコンピューター ビジョン技術の地球科学的タスクへの応用に焦点を当て、岩石サンプルの CT スキャン画像の分類、セグメンテーション、および解釈可能性を調査します。
さまざまなセグメンテーション手法を比較して、地質画像解析における有効性、効率、適応性を評価します。
評価された手法には、Otsu しきい値処理、クラスタリング手法 (K 平均法、ファジー C 平均法)、教師あり機械学習アプローチ (ランダム フォレスト)、深層学習モデル (UNet、ResNet152、DINOv2) が含まれます。これらは 10 個のバイナリ砂岩データセットと 3 個を使用します。
マルチクラス方解石データセット。
DINOv2 は、特徴抽出における有望な結果と地球科学タスクへの潜在的な適用可能性のために選択され、CT スキャンされた岩石データの処理における解釈可能性と有効性のさらなる評価が促されました。
分類に関しては、微調整されていない DINOv2 は、CT スキャンが元のトレーニング セットの範囲外にある場合でも、岩石画像の分類において優れたパフォーマンスを示します。
セグメンテーション タスクでは、しきい値処理およびクラスタリング手法は、計算効率は高くなりますが、前処理の労力にもかかわらず、平均以下の結果が得られます。
対照的に、教師ありメソッドはより優れたパフォーマンスを実現します。
深層学習手法はより多くの計算リソースを必要としますが、必要な介入は最小限で済み、優れた一般化を実現します。
特に、LoRA で微調整された DINOv2 は、分布外セグメンテーションに優れており、データが限られている場合でも、マルチクラス タスクで他の方法よりも優れたパフォーマンスを発揮します。
特に、目視検査に基づくと、DINOv2 によって生成されたセグメンテーション マスクは、元のターゲットよりも正確に見えることがよくあります。

要約(オリジナル)

Recent advancements in computer vision have significantly improved image analysis tasks. Yet, deep learning models often struggle when applied to domains outside their training distribution, such as in geosciences, where domain-specific data can be scarce. This study investigates the classification, segmentation, and interpretability of CT-scan images of rock samples, focusing on the application of modern computer vision techniques to geoscientific tasks. We compare a range of segmentation methods to assess their efficacy, efficiency, and adaptability in geological image analysis. The methods evaluated include Otsu thresholding, clustering techniques (K-means, fuzzy C-means), a supervised machine learning approach (Random Forest), and deep learning models (UNet, ResNet152, and DINOv2), using ten binary sandstone datasets and three multi-class calcite datasets. DINOv2 was selected for its promising results in feature extraction and its potential applicability in geoscientific tasks, prompting further assessment of its interpretability and effectiveness in processing CT-scanned rock data. For classification, a non-fine-tuned DINOv2 demonstrates strong performance in classifying rock images, even when the CT-scans are outside its original training set. In segmentation tasks, thresholding and clustering techniques, though computationally efficient, produce subpar results despite preprocessing efforts. In contrast, supervised methods achieve better performance. While deep learning methods demand greater computational resources, they require minimal intervention and offer superior generalization. A LoRA fine-tuned DINOv2, in particular, excels in out-of-distribution segmentation and outperforms other methods in multi-class tasks, even with limited data. Notably, the segmentation masks generated by DINOv2 often appear more accurate than the original targets, based on visual inspection.

arxiv情報

著者 Florent Brondolo,Samuel Beaussant
発行日 2024-09-12 16:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.geo-ph パーマリンク