Delta Tensor: Efficient Vector and Tensor Storage in Delta Lake


人工知能 (AI) および機械学習 (ML) アプリケーションの急激な成長により、ベクトルおよびテンソル データ用の効率的なストレージ ソリューションの開発が必要になりました。
この論文では、Delta Lake を使用したレイクハウス アーキテクチャにおけるテンソル ストレージの新しいアプローチを紹介します。
実験では、配列データベースとスパース エンコーディング手法から Delta Lake テーブルまでの多次元配列ストレージ戦略を採用することにより、このアプローチが従来のテンソルのシリアル化と比較して空間効率と時間効率の両方で顕著な改善を示していることを示しています。
これらの結果は、データ集約型アプリケーションにおける最適化されたベクターおよびテンソル ストレージ ソリューションの開発と実装に貴重な洞察を提供し、クラウド ネイティブ環境における AI および ML ドメインにおける効率的なデータ管理実践の進化に貢献します。


The exponential growth of artificial intelligence (AI) and machine learning (ML) applications has necessitated the development of efficient storage solutions for vector and tensor data. This paper presents a novel approach for tensor storage in a Lakehouse architecture using Delta Lake. By adopting the multidimensional array storage strategy from array databases and sparse encoding methods to Delta Lake tables, experiments show that this approach has demonstrated notable improvements in both space and time efficiencies when compared to traditional serialization of tensors. These results provide valuable insights for the development and implementation of optimized vector and tensor storage solutions in data-intensive applications, contributing to the evolution of efficient data management practices in AI and ML domains in cloud-native environments


著者 Zhiwei Bao,Liu Liao-Liao,Zhiyu Wu,Yifan Zhou,Dan Fan,Michal Aibin,Yvonne Coady,Andrew Brownsword
発行日 2024-05-13 15:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.DB, cs.DC, cs.LG パーマリンク