Effectiveness and predictability of in-network storage cache for scientific workflows

要約

大規模な科学コラボレーションでは、複数の科学者が異なる分析を実行しながら同じファイルのセットにアクセスすることが多く、遠く離れた場所にある大量の共有データに繰り返しアクセスすることになります。
これらのデータ アクセスは距離があるため遅延が長く、広域ネットワーク上で利用できる限られた帯域幅を占有します。
広域ネットワークのトラフィックとデータ アクセスの遅延を軽減するために、新しいネットワーク サービスとして地域データ ストレージ キャッシュがインストールされました。
科学的応用におけるこのようなキャッシュ システムの有効性を研究するために、高エネルギー物理学実験用の南カリフォルニアのペタバイト スケール キャッシュを調べます。
約 3 TB の操作ログを調査すると、このキャッシュによって広域ネットワークからのファイル要求の 67.6% が削除され、広域ネットワーク上のトラフィック量が 1 日平均 12.3 TB (または 35.4%) 削減されたことがわかります。
大きなファイルは再利用される可能性が低いため、トラフィック量の削減 (35.4%) はファイル数の削減 (67.6%) よりも小さくなります。
データ アクセス パターンのこの違いにより、キャッシュ システムは、大きなファイルを処理するときに小さなファイルの排除を回避するポリシーを実装しました。
また、キャッシュ動作の予測可能性を研究するための機械学習モデルも構築します。
テストでは、このモデルがキャッシュ アクセス、キャッシュ ミス、ネットワーク スループットを正確に予測できることが示されており、このモデルはリソースのプロビジョニングと計画に関する将来の研究に役立ちます。

要約(オリジナル)

Large scientific collaborations often have multiple scientists accessing the same set of files while doing different analyses, which create repeated accesses to the large amounts of shared data located far away. These data accesses have long latency due to distance and occupy the limited bandwidth available over the wide-area network. To reduce the wide-area network traffic and the data access latency, regional data storage caches have been installed as a new networking service. To study the effectiveness of such a cache system in scientific applications, we examine the Southern California Petabyte Scale Cache for a high-energy physics experiment. By examining about 3TB of operational logs, we show that this cache removed 67.6% of file requests from the wide-area network and reduced the traffic volume on wide-area network by 12.3TB (or 35.4%) an average day. The reduction in the traffic volume (35.4%) is less than the reduction in file counts (67.6%) because the larger files are less likely to be reused. Due to this difference in data access patterns, the cache system has implemented a policy to avoid evicting smaller files when processing larger files. We also build a machine learning model to study the predictability of the cache behavior. Tests show that this model is able to accurately predict the cache accesses, cache misses, and network throughput, making the model useful for future studies on resource provisioning and planning.

arxiv情報

著者 Caitlin Sim,Kesheng Wu,Alex Sim,Inder Monga,Chin Guok,Frank Wurthwein,Diego Davila,Harvey Newman,Justas Balcas
発行日 2023-07-20 17:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.NI パーマリンク