要約
継続的学習(CL)は生涯AIの重要な課題として広く認識されている。しかし、Permuted-MNISTやSplit-CIFARなどの既存の継続学習ベンチマークは、人工的な時間変化を用いており、実世界との整合性や一般性がない。本論文では、10年間(2004-2014)にわたる実世界の視覚的概念の自然な時間発展を利用した、初の継続的な画像分類ベンチマークデータセットであるCLEARを紹介する。我々は、視覚言語データセットキュレーションのための新規かつスケーラブルな低コストアプローチにより、既存の大規模画像コレクション(YFCC100M)からCLEARを構築する。私たちのパイプラインは、事前に学習された視覚言語モデル(CLIPなど)を利用して、ラベル付きデータセットを対話的に構築し、さらにクラウドソーシングで検証してエラーや不適切な画像(オリジナルのYFCC100Mに隠れている)を削除しています。CLEARの主な強みは、実世界の画像を用いた視覚概念のスムーズな時間発展であり、継続的な半教師付き学習のために、高品質のラベル付きデータと期間ごとの豊富な非ラベル付きサンプルの両方を含んでいることである。我々は、単純な教師なし事前学習ステップにより、完全教師ありデータのみを利用する最先端の学習アルゴリズムを既に後押しできることを発見した。また、我々の分析から、iidデータで学習・テストする主流の教師なし学習評価プロトコルは、学習システムの性能を人為的に高めていることが明らかになった。この問題を解決するために、我々は、常に(近い)未来に対してテストを行う、新しい「ストリーミング」プロトコルを提案する。興味深いことに、ストリーミングプロトコルでは、(a)今日のテストセットを明日のトレーニングセットに再利用できるため、データセットのキュレーションを簡略化できる。(b)各時期の全てのラベル付きデータをトレーニングとテストの両方に使用するため(従来のIDトレーニング-テスト分割とは異なる)、より一般化できるモデルを作成でき、より正確に性能を見積もることができる。
要約(オリジナル)
Continual learning (CL) is widely regarded as crucial challenge for lifelong AI. However, existing CL benchmarks, e.g. Permuted-MNIST and Split-CIFAR, make use of artificial temporal variation and do not align with or generalize to the real-world. In this paper, we introduce CLEAR, the first continual image classification benchmark dataset with a natural temporal evolution of visual concepts in the real world that spans a decade (2004-2014). We build CLEAR from existing large-scale image collections (YFCC100M) through a novel and scalable low-cost approach to visio-linguistic dataset curation. Our pipeline makes use of pretrained vision-language models (e.g. CLIP) to interactively build labeled datasets, which are further validated with crowd-sourcing to remove errors and even inappropriate images (hidden in original YFCC100M). The major strength of CLEAR over prior CL benchmarks is the smooth temporal evolution of visual concepts with real-world imagery, including both high-quality labeled data along with abundant unlabeled samples per time period for continual semi-supervised learning. We find that a simple unsupervised pre-training step can already boost state-of-the-art CL algorithms that only utilize fully-supervised data. Our analysis also reveals that mainstream CL evaluation protocols that train and test on iid data artificially inflate performance of CL system. To address this, we propose novel ‘streaming’ protocols for CL that always test on the (near) future. Interestingly, streaming protocols (a) can simplify dataset curation since today’s testset can be repurposed for tomorrow’s trainset and (b) can produce more generalizable models with more accurate estimates of performance since all labeled data from each time-period is used for both training and testing (unlike classic iid train-test splits).
arxiv情報
著者 | Zhiqiu Lin,Jia Shi,Deepak Pathak,Deva Ramanan |
発行日 | 2022-06-09 04:41:54+00:00 |
arxivサイト | arxiv_id(pdf) |