Mixture of Self-Supervised Learning

要約

自己教師あり学習は、ラベルを使用せずに画像内の特徴を学習でき、教師あり学習で使用される限定されたラベル付きデータセットを克服できるため、人気のある方法です。
自己教師あり学習は、特定のタスクに適用される前にモデルでトレーニングされる口実タスクを使用することで機能します。
画像認識の分野における自己教師あり学習で使用されるプリテキスト タスクの例としては、回転予測、ジグソーパズルの解決、画像上の相対位置の予測などが挙げられます。
これまでの研究では、口実タスクとして 1 種類の変換のみが使用されていました。
これにより、複数のプレテキスト タスクが使用され、ゲート ネットワークを使用してすべてのプレテキスト タスクが結合された場合にどのような影響があるかという疑問が生じます。
したがって、私たちは、プリテキストタスクとして複数の変換を使用し、各プリテキストタスクを組み合わせる際にゲートネットワークとしてエキスパートの混合アーキテクチャを使用する画像分類を改善するためのゲート自己教師あり学習方法を提案します。これにより、モデルは自動的により多くの学習と焦点を合わせることができます
分類に最も役立つ拡張について。
提案された方法のパフォーマンスを、CIFAR 不均衡データセット分類、敵対的摂動、Tiny-Imagenet データセット分類、および半教師あり学習といういくつかのシナリオでテストします。
さらに、画像分類に影響を与える重要な特徴を特定し、各クラスのデータを表現し、異なるクラスを適切に分離するための提案された方法を確認するために使用される Grad-CAM および T-SNE 分析があります。
私たちのコードは https://github.com/aristorenaldo/G-SSL にあります。

要約(オリジナル)

Self-supervised learning is popular method because of its ability to learn features in images without using its labels and is able to overcome limited labeled datasets used in supervised learning. Self-supervised learning works by using a pretext task which will be trained on the model before being applied to a specific task. There are some examples of pretext tasks used in self-supervised learning in the field of image recognition, namely rotation prediction, solving jigsaw puzzles, and predicting relative positions on image. Previous studies have only used one type of transformation as a pretext task. This raises the question of how it affects if more than one pretext task is used and to use a gating network to combine all pretext tasks. Therefore, we propose the Gated Self-Supervised Learning method to improve image classification which use more than one transformation as pretext task and uses the Mixture of Expert architecture as a gating network in combining each pretext task so that the model automatically can study and focus more on the most useful augmentations for classification. We test performance of the proposed method in several scenarios, namely CIFAR imbalance dataset classification, adversarial perturbations, Tiny-Imagenet dataset classification, and semi-supervised learning. Moreover, there are Grad-CAM and T-SNE analysis that are used to see the proposed method for identifying important features that influence image classification and representing data for each class and separating different classes properly. Our code is in https://github.com/aristorenaldo/G-SSL

arxiv情報

著者 Aristo Renaldo Ruslim,Novanto Yudistira,Budi Darma Setiawan
発行日 2023-07-27 14:38:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク