要約
対照学習は最近、トレーニング ラベルを必要としないにもかかわらず、教師あり学習よりも優れたパフォーマンスを発揮することが実証されました。
火星探査車の好奇心と忍耐力、および火星偵察オービターから収集された、何十万ものラベル付けされていない火星の地形画像に対比学習を適用する方法を探ります。
手作業による注釈付けは労働集約的であり、幅広い分野の知識を必要とするため、火星の画像の大部分はラベル付けされていないため、このような方法は魅力的です。
ただし、対照的な学習では、特定の画像の任意のペアに個別のセマンティック コンテンツが含まれていることを前提としています。
これは、火星の画像データセットの問題です。火星の表面には視覚的な多様性がないため、火星の画像の 2 つのペアは意味的に類似している可能性がはるかに高いためです。
画像のペアが視覚的に対照的であると仮定すると (実際にはそうではない場合)、ペアが誤ってネガティブと見なされ、トレーニングのパフォーマンスに影響を与えます。
この研究では、これを解決するための 2 つのアプローチを提案します。1) 火星データセットに対する教師なしのディープ クラスタリング ステップ。これは、同様のセマンティック コンテンツを含む画像のクラスターを識別し、トレーニング中に偽陰性エラーを修正します。2) データを混合する単純なアプローチ。
さまざまなドメインから、トレーニング データセット全体の視覚的な多様性を高めます。
どちらの場合も、偽陰性のペアの割合が減少するため、対照的なトレーニング中にモデルが誤ってペナルティを受ける割合が最小限に抑えられます。
これらの修正されたアプローチは、エンドツーエンドで完全に監視されていません。
それらのパフォーマンスを評価するために、これらの対照的に学習された機能に基づいてクラス予測を生成するようにトレーニングされた単一の線形レイヤーを追加し、教師ありモデルと比較してパフォーマンスの向上を示します。
ラベル付けされたデータの 10% のみを使用して、3.06% の分類精度の向上が観察されました。
要約(オリジナル)
Contrastive learning has recently demonstrated superior performance to supervised learning, despite requiring no training labels. We explore how contrastive learning can be applied to hundreds of thousands of unlabeled Mars terrain images, collected from the Mars rovers Curiosity and Perseverance, and from the Mars Reconnaissance Orbiter. Such methods are appealing since the vast majority of Mars images are unlabeled as manual annotation is labor intensive and requires extensive domain knowledge. Contrastive learning, however, assumes that any given pair of distinct images contain distinct semantic content. This is an issue for Mars image datasets, as any two pairs of Mars images are far more likely to be semantically similar due to the lack of visual diversity on the planet’s surface. Making the assumption that pairs of images will be in visual contrast – when they are in fact not – results in pairs that are falsely considered as negatives, impacting training performance. In this study, we propose two approaches to resolve this: 1) an unsupervised deep clustering step on the Mars datasets, which identifies clusters of images containing similar semantic content and corrects false negative errors during training, and 2) a simple approach which mixes data from different domains to increase visual diversity of the total training dataset. Both cases reduce the rate of false negative pairs, thus minimizing the rate in which the model is incorrectly penalized during contrastive training. These modified approaches remain fully unsupervised end-to-end. To evaluate their performance, we add a single linear layer trained to generate class predictions based on these contrastively-learned features and demonstrate increased performance compared to supervised models; observing an improvement in classification accuracy of 3.06% using only 10% of the labeled data.
arxiv情報
著者 | Isaac Ronald Ward,Charles Moore,Kai Pak,Jingdao Chen,Edwin Goh |
発行日 | 2022-10-17 16:26:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google