Vision Based Machine Learning Algorithms for Out-of-Distribution Generalisation


オブジェクトのセグメンテーション、分類、オブジェクトの検出、再構成など、機械学習 (ML) が最先端のパフォーマンスを発揮する多くのコンピューター ビジョン アプリケーションがあります。
今日では、このようなアプリケーション向けの ML ツールを現実世界の精度で構築できます。
多くの場合、ある特定のドメインのデータセットでモデルをトレーニングし、分布外 (OOD) データセットと呼ばれる別の目に見えないドメインでテストすると、モデルまたは ML ツールのパフォーマンスが低下します。
たとえば、現実世界の画像で単純な分類器をトレーニングし、そのモデルを同じクラスに適用するが、漫画、絵画、スケッチなどの異なるドメインに適用すると、ML ツールのパフォーマンスは期待を裏切ります。
これは、ドメイン一般化 (DG)、ドメイン適応 (DA)、およびドメイン シフトの深刻な課題を提示します。
ML ツールの機能を強化するために、モデルをゼロから再構築して再トレーニングするか、転移学習を実行できます。
この研究では、シンプルな畳み込みニューラル ネットワーク (CNN) ベースのディープ ラーニング手法は、ドメイン シフトに取り組む必要がある場合にパフォーマンスが低下することを強調しています。
実験は、2 つの一般的な視覚ベースのベンチマークである PACS と Office-Home で行われます。
この結果は、CNN ベースの深層学習モデルが、他の広範な方法と比較して一般化が不十分であることを示しています。


There are many computer vision applications including object segmentation, classification, object detection, and reconstruction for which machine learning (ML) shows state-of-the-art performance. Nowadays, we can build ML tools for such applications with real-world accuracy. However, each tool works well within the domain in which it has been trained and developed. Often, when we train a model on a dataset in one specific domain and test on another unseen domain known as an out of distribution (OOD) dataset, models or ML tools show a decrease in performance. For instance, when we train a simple classifier on real-world images and apply that model on the same classes but with a different domain like cartoons, paintings or sketches then the performance of ML tools disappoints. This presents serious challenges of domain generalisation (DG), domain adaptation (DA), and domain shifting. To enhance the power of ML tools, we can rebuild and retrain models from scratch or we can perform transfer learning. In this paper, we present a comparison study between vision-based technologies for domain-specific and domain-generalised methods. In this research we highlight that simple convolutional neural network (CNN) based deep learning methods perform poorly when they have to tackle domain shifting. Experiments are conducted on two popular vision-based benchmarks, PACS and Office-Home. We introduce an implementation pipeline for domain generalisation methods and conventional deep learning models. The outcome confirms that CNN-based deep learning models show poor generalisation compare to other extensive methods.


著者 Hamza Riaz,Alan F. Smeaton
発行日 2023-01-17 15:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG パーマリンク