Does Learning from Decentralized Non-IID Unlabeled Data Benefit from Self Supervision?

要約

分散型学習は、教師あり学習 (SL) の問題に重点を置いて、分散データセットを効率的に使用するために提唱され、広く展開されています。
残念ながら、実世界のデータの大部分はラベル付けされておらず、ソース間で非常に異質である可能性があります。
この作業では、自己教師あり学習 (SSL)、特に対照的な視覚的表現学習のレンズを通して、ラベルのないデータを使用した分散型学習を注意深く研究します。
ImageNet-100、MS-COCO、および新しい実世界のロボット倉庫データセットを含む比較的大規模なデータセットで、分散学習設定の下でのさまざまな対照学習アルゴリズムの有効性を研究します。
私たちの実験は、分散型 SSL (Dec-SSL) アプローチが分散型データセットの不均一性に対して堅牢であり、オブジェクトの分類、検出、およびセグメンテーション タスクに役立つ表現を学習することを示しています。
この堅牢性により、パフォーマンスの低下を最小限に抑えながら、通信を大幅に削減し、データ ソースの参加率を下げることができます。
興味深いことに、同じ量のデータを使用して、Dec-SSL によって学習された表現は、通信と過剰なデータ ストレージ コストを必要とする集中型 SSL によって学習された表現と同等のパフォーマンスを発揮できるだけでなく、追加の知識を必要とする分散型 SL から抽出された表現よりも優れている場合があります。
データラベルについて。
最後に、データの不均一性が Dec-SSL の目的にとってあまり問題にならない理由を理解するための理論的な洞察を提供し、機能の調整とクラスタリングの手法を導入して、パフォーマンスをさらに向上させる新しい Dec-SSL アルゴリズムを開発します。
IID データ。
私たちの研究は、分散型学習にラベルのないデータを採用する肯定的な証拠を示しており、分散型 SSL が有効であるかどうか、またその理由について新しい洞察を提供したいと考えています。

要約(オリジナル)

Decentralized learning has been advocated and widely deployed to make efficient use of distributed datasets, with an extensive focus on supervised learning (SL) problems. Unfortunately, the majority of real-world data are unlabeled and can be highly heterogeneous across sources. In this work, we carefully study decentralized learning with unlabeled data through the lens of self-supervised learning (SSL), specifically contrastive visual representation learning. We study the effectiveness of a range of contrastive learning algorithms under decentralized learning settings, on relatively large-scale datasets including ImageNet-100, MS-COCO, and a new real-world robotic warehouse dataset. Our experiments show that the decentralized SSL (Dec-SSL) approach is robust to the heterogeneity of decentralized datasets, and learns useful representation for object classification, detection, and segmentation tasks. This robustness makes it possible to significantly reduce communication and reduce the participation ratio of data sources with only minimal drops in performance. Interestingly, using the same amount of data, the representation learned by Dec-SSL can not only perform on par with that learned by centralized SSL which requires communication and excessive data storage costs, but also sometimes outperform representations extracted from decentralized SL which requires extra knowledge about the data labels. Finally, we provide theoretical insights into understanding why data heterogeneity is less of a concern for Dec-SSL objectives, and introduce feature alignment and clustering techniques to develop a new Dec-SSL algorithm that further improves the performance, in the face of highly non-IID data. Our study presents positive evidence to embrace unlabeled data in decentralized learning, and we hope to provide new insights into whether and why decentralized SSL is effective.

arxiv情報

著者 Lirui Wang,Kaiqing Zhang,Yunzhu Li,Yonglong Tian,Russ Tedrake
発行日 2023-02-28 16:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク