Homogenizing Non-IID datasets via In-Distribution Knowledge Distillation for Decentralized Learning

要約

タイトル:非IIDデータセットの同質化:分散学習のためのインディストリビューションナレッジ蒸留

要約:
– 分散学習は、複数ノード上で分散的に深層ニューラルネットワーク(DNN)をトレーニングすることができるため、大規模なデータセットの使用や多様なデータソースでのトレーニングが可能です。
– しかし、分散学習における主要な課題の1つは、ノード間のデータ分布の不均一性です。
– この論文では、異種性のあるデータ分布の課題に対処するために、「インディストリビューションナレッジ蒸留(IDKD)」を提案しています。
– IDKDの目的は、ノード間のデータ分布を同質化することです。
– ノード間でデータを交換することでこのようなデータの同質化を実現することができますが、プライバシー制約を犠牲にすることになります。
– IDKDでは、各ノードで共通の公開データセットを使用して、プライバシー制約を破らずに知識を蒸留することで、同じ目標を達成します。
– この公開データセットは、トレーニングデータセットとは異なり、各ノードの知識を蒸留し、生成されたラベルを隣接ノードに伝えるために使用されます。
– 従来の知識蒸留では、公開データセットのすべてのサンプルが、ローカルデータセットとの類似性に関係なく使用されるため、知識の総合性が低下する可能性があります。
– したがって、各ノードには、ローカルトレーニングデータの分布に近い公開データセットのサブセットをラベル付けするためのOut-of-Distribution(OoD)検出器を導入しました。
– 最終的に、これらのデータサブセットに対応するラベルのみがノード間で交換され、適切なラベル平均化により、各ノードはローカルデータと一緒にこれらのデータサブセットの上で微調整されます。
– 複数の画像分類データセットやグラフトポロジーの実験結果から、提案されたIDKDスキームが従来の知識蒸留よりも効果的であり、通信オーバーヘッドが最小限で、異質的に分布するデータで最先端の汎化性能を達成できることが示されました。

要約(オリジナル)

Decentralized learning enables serverless training of deep neural networks (DNNs) in a distributed manner on multiple nodes. This allows for the use of large datasets, as well as the ability to train with a wide variety of data sources. However, one of the key challenges with decentralized learning is heterogeneity in the data distribution across the nodes. In this paper, we propose In-Distribution Knowledge Distillation (IDKD) to address the challenge of heterogeneous data distribution. The goal of IDKD is to homogenize the data distribution across the nodes. While such data homogenization can be achieved by exchanging data among the nodes sacrificing privacy, IDKD achieves the same objective using a common public dataset across nodes without breaking the privacy constraint. This public dataset is different from the training dataset and is used to distill the knowledge from each node and communicate it to its neighbors through the generated labels. With traditional knowledge distillation, the generalization of the distilled model is reduced because all the public dataset samples are used irrespective of their similarity to the local dataset. Thus, we introduce an Out-of-Distribution (OoD) detector at each node to label a subset of the public dataset that maps close to the local training data distribution. Finally, only labels corresponding to these subsets are exchanged among the nodes and with appropriate label averaging each node is finetuned on these data subsets along with its local data. Our experiments on multiple image classification datasets and graph topologies show that the proposed IDKD scheme is more effective than traditional knowledge distillation and achieves state-of-the-art generalization performance on heterogeneously distributed data with minimal communication overhead.

arxiv情報

著者 Deepak Ravikumar,Gobinda Saha,Sai Aparna Aketi,Kaushik Roy
発行日 2023-04-09 23:26:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DC, cs.LG パーマリンク