TensorBank:Tensor Lakehouse for Foundation Model Training

要約

自然言語を超えた基礎モデルの台頭により、基礎モデルのトレーニング用の高次元データの保存とストリーミングが重要な要件になりました。
このペーパーでは、複雑なリレーショナル クエリに基づいて、クラウド オブジェクト ストア (COS) から GPU メモリにテンソルをワイヤ スピードでストリーミングできるペタバイト スケールのテンソル レイクハウスである TensorBank を紹介します。
クエリの高速化には階層統計インデックス (HSI) を使用します。
私たちのアーキテクチャでは、HTTP 範囲読み取りを使用してブロック レベルでテンソルに直接アドレス指定できます。
データは GPU メモリに格納されると、PyTorch 変換を使用して変換できます。
リレーショナル クエリと要求された変換をインスタンスとして変換する、対応するデータセット ファクトリを備えた汎用の PyTorch データセット タイプを提供します。
HSI を利用すると、これらのインデックスにはさまざまな階層解像度レベルでのコンテンツに関する統計が含まれるため、無関係なブロックを読み取らずにスキップできます。
これは、オープン スタンダードを基盤とし、オープンソース テクノロジーを多用した独自のアーキテクチャです。
このアーキテクチャは、地理時空間データを使用した実稼働用途向けに強化されていますが、コンピューター ビジョン、計算論的神経科学、生物学的配列分析などの他のユース ケースにも一般化できます。

要約(オリジナル)

Storing and streaming high dimensional data for foundation model training became a critical requirement with the rise of foundation models beyond natural language. In this paper we introduce TensorBank, a petabyte scale tensor lakehouse capable of streaming tensors from Cloud Object Store (COS) to GPU memory at wire speed based on complex relational queries. We use Hierarchical Statistical Indices (HSI) for query acceleration. Our architecture allows to directly address tensors on block level using HTTP range reads. Once in GPU memory, data can be transformed using PyTorch transforms. We provide a generic PyTorch dataset type with a corresponding dataset factory translating relational queries and requested transformations as an instance. By making use of the HSI, irrelevant blocks can be skipped without reading them as those indices contain statistics on their content at different hierarchical resolution levels. This is an opinionated architecture powered by open standards and making heavy use of open-source technology. Although, hardened for production use using geospatial-temporal data, this architecture generalizes to other use case like computer vision, computational neuroscience, biological sequence analysis and more.

arxiv情報

著者 Romeo Kienzler,Benedikt Blumenstiel,Zoltan Arnold Nagy,S. Karthik Mukkavilli,Johannes Schmude,Marcus Freitag,Michael Behrendt,Daniel Salles Civitarese,Hendrik Hamann
発行日 2023-09-05 10:00:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.IR, cs.LG パーマリンク