Dataset Growth

要約

ディープ ラーニングは、利用可能なデータが増え続けることで恩恵を受けます。
一方で、増大するデータ規模に効率的に対処することが課題となっています。
公開されているデータはさまざまなソースからのものであり、さまざまな品質があり、今日のデータ規模を考慮すると、ノイズや冗長性に対して手動でクリーニングを行うことは非現実的です。
収集されたデータをクリーニング/選択するための既存の技術があります。
ただし、これらの方法は主に、クリーン度と冗長性の問題の 1 つを対象としたオフライン設定用に提案されています。
実際には、両方の問題を抱えてデータが急激に増加しています。
これにより、次善の効率でデータキュレーションが繰り返されることになります。
この課題に取り組むために、私たちは、データのクリーニングと選択のための効率的なオンライン アルゴリズムである InfoGrowth を提案します。これにより、クリーンさと多様性を意識して最新の状態を保つデータセットが増大します。
InfoGrowth は、効率的でスケーラブルな設計により、シングルモーダル タスクとマルチモーダル タスクの両方でデータの品質と効率を向上させることができます。
そのフレームワークにより、現実世界のデータ エンジンで実用的になります。

要約(オリジナル)

Deep learning benefits from the growing abundance of available data. Meanwhile, efficiently dealing with the growing data scale has become a challenge. Data publicly available are from different sources with various qualities, and it is impractical to do manual cleaning against noise and redundancy given today’s data scale. There are existing techniques for cleaning/selecting the collected data. However, these methods are mainly proposed for offline settings that target one of the cleanness and redundancy problems. In practice, data are growing exponentially with both problems. This leads to repeated data curation with sub-optimal efficiency. To tackle this challenge, we propose InfoGrowth, an efficient online algorithm for data cleaning and selection, resulting in a growing dataset that keeps up to date with awareness of cleanliness and diversity. InfoGrowth can improve data quality/efficiency on both single-modal and multi-modal tasks, with an efficient and scalable design. Its framework makes it practical for real-world data engines.

arxiv情報

著者 Ziheng Qin,Zhaopan Xu,Yukun Zhou,Zangwei Zheng,Zebang Cheng,Hao Tang,Lei Shang,Baigui Sun,Xiaojiang Peng,Radu Timofte,Hongxun Yao,Kai Wang,Yang You
発行日 2024-05-28 16:43:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク