要約
ラベル付きデータとラベルなしデータの両方を使用してエッジで学習できる多用途 AI ハードウェアのアルゴリズムを設計するのは困難です。
自己教師あり学習と教師あり学習のフェーズを組み込んだ深いエンドツーエンドのトレーニング方法は正確で、入力データに適応できますが、自己教師あり学習は教師あり学習よりもさらに多くの計算リソースとメモリ リソースを必要とし、現在の組み込みハードウェアには多すぎます。
逆に、ヘビアン学習などの教師なしレイヤーごとのトレーニングは、既存のハードウェアとの互換性が高くなりますが、教師あり学習とはうまく統合されません。
これに対処するために、Winner-Take-All (WTA) 選択性とホメオスタシスという 2 つの単純な要素を出力層に追加することで、エンドツーエンドの教師あり学習用に設計されたネットワークまたはハードウェアが高性能の教師なし学習も実行できるようにする方法を提案します。
正規化。
これらのメカニズムは、ラベルのないデータに対して「自己定義のターゲット」を導入し、MNIST (最大 99.2%)、Fashion-MNIST (最大 90.3%) などのデータセットでバックプロパゲーションまたは平衡伝播を使用して、完全接続層と畳み込み層の両方に対して純粋に教師なしトレーニングを可能にします。
)、SVHN (最大 81.5%)。
この方法を半教師あり学習に拡張し、データタイプに基づいてターゲットを調整し、多層パーセプトロンでわずか 600 個のラベル付き MNIST サンプルで 96.6% の精度を達成しました。
私たちの結果は、このアプローチにより、最初は教師あり学習専用だったネットワークとハードウェアが、ラベル付きデータの可用性の変化に適応して、教師なし学習も実行できるように効果的にできることを示しています。
要約(オリジナル)
Designing algorithms for versatile AI hardware that can learn on the edge using both labeled and unlabeled data is challenging. Deep end-to-end training methods incorporating phases of self-supervised and supervised learning are accurate and adaptable to input data but self-supervised learning requires even more computational and memory resources than supervised learning, too high for current embedded hardware. Conversely, unsupervised layer-by-layer training, such as Hebbian learning, is more compatible with existing hardware but does not integrate well with supervised learning. To address this, we propose a method enabling networks or hardware designed for end-to-end supervised learning to also perform high-performance unsupervised learning by adding two simple elements to the output layer: Winner-Take-All (WTA) selectivity and homeostasis regularization. These mechanisms introduce a ‘self-defined target’ for unlabeled data, allowing purely unsupervised training for both fully-connected and convolutional layers using backpropagation or equilibrium propagation on datasets like MNIST (up to 99.2%), Fashion-MNIST (up to 90.3%), and SVHN (up to 81.5%). We extend this method to semi-supervised learning, adjusting targets based on data type, achieving 96.6% accuracy with only 600 labeled MNIST samples in a multi-layer perceptron. Our results show that this approach can effectively enable networks and hardware initially dedicated to supervised learning to also perform unsupervised learning, adapting to varying availability of labeled data.
arxiv情報
著者 | Dongshu Liu,Jérémie Laydevant,Adrien Pontlevy,Damien Querlioz,Julie Grollier |
発行日 | 2024-07-23 14:49:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google