要約
現在の主流のタイプの自己教師あり学習方法は、通常、インスタンス識別などの特定の口実タスクを最適化することにより、下流のタスクにうまく転送できる汎用表現を追求しています。
この作業では、既存の口実タスクが必然的に学習された表現にバイアスを導入し、それがさまざまなダウンストリーム タスクで偏った転送パフォーマンスにつながると主張します。
この問題に対処するために、表現の構造を明示的に最適化するより原則的な目的である最大エントロピー コーディング (MEC) を提案します。これにより、学習した表現の偏りが少なくなり、目に見えない下流のタスクによりよく一般化されます。
情報理論における最大エントロピーの原理に着想を得て、一般化可能な表現は、すべてのもっともらしい表現の中で最大のエントロピーを認めるものでなければならないという仮説を立てました。
目標をエンドツーエンドでトレーニング可能にするために、エントロピーの計算上扱いやすい代理として損失データコーディングの最小コーディング長を活用し、高速計算を可能にする目標のスケーラブルな再定式化をさらに導出することを提案します。
広範な実験により、MEC は特定の口実タスクに基づく以前の方法よりも一般化可能な表現を学習することが実証されています。
ImageNet 線形プローブだけでなく、半教師付き分類、オブジェクト検出、インスタンス セグメンテーション、オブジェクト トラッキングなど、さまざまなダウンストリーム タスクで一貫して最先端のパフォーマンスを実現します。
興味深いことに、既存のバッチ単位および機能単位の自己教師あり目標は、MEC の低次近似と同等と見なすことができることを示しています。
コードと事前トレーニング済みのモデルは、https://github.com/xinliu20/MEC で入手できます。
要約(オリジナル)
A mainstream type of current self-supervised learning methods pursues a general-purpose representation that can be well transferred to downstream tasks, typically by optimizing on a given pretext task such as instance discrimination. In this work, we argue that existing pretext tasks inevitably introduce biases into the learned representation, which in turn leads to biased transfer performance on various downstream tasks. To cope with this issue, we propose Maximum Entropy Coding (MEC), a more principled objective that explicitly optimizes on the structure of the representation, so that the learned representation is less biased and thus generalizes better to unseen downstream tasks. Inspired by the principle of maximum entropy in information theory, we hypothesize that a generalizable representation should be the one that admits the maximum entropy among all plausible representations. To make the objective end-to-end trainable, we propose to leverage the minimal coding length in lossy data coding as a computationally tractable surrogate for the entropy, and further derive a scalable reformulation of the objective that allows fast computation. Extensive experiments demonstrate that MEC learns a more generalizable representation than previous methods based on specific pretext tasks. It achieves state-of-the-art performance consistently on various downstream tasks, including not only ImageNet linear probe, but also semi-supervised classification, object detection, instance segmentation, and object tracking. Interestingly, we show that existing batch-wise and feature-wise self-supervised objectives could be seen equivalent to low-order approximations of MEC. Code and pre-trained models are available at https://github.com/xinliu20/MEC.
arxiv情報
著者 | Xin Liu,Zhongdao Wang,Yali Li,Shengjin Wang |
発行日 | 2022-10-20 17:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google