Random Alloy Codes and the Fundamental Limits of Coded Distributed Tensors

要約

テンソルは分散における基本的な操作であり、一般に大規模なデータセットの複数の並列タスクに分散されます。
ストラグラーやその他の障害は、全体の完了時間に重大な影響を与える可能性があります。
コード化されたコンピューティングに関する最近の研究では、全体的な結果を回復するために必要なタスクの数 (回復しきい値として知られる) を最小限に抑えることを目的として、コード化されたタスクによる遅れを軽減する新しい戦略が提供されています。
ただし、この厳密な組み合わせ定義は失敗の確率を直接最適化しないことを示します。
この論文では、最も可能性の高いイベントに焦点を当て、復号化の確率によってより直接的に符号化方式の最適性を測定します。
我々の確率的アプローチは、行列乗算のためのランダムコード、つまり、尺度に関して最適な局所ランダム合金コードの実際的な構築につながります。
さらに、確率論的なアプローチにより、ランダムおよび決定論的なコード化分散テンソルの両方に関する驚くべき不可能定理を発見することができます。

要約(オリジナル)

Tensors are a fundamental operation in distributed and are commonly distributed into multiple parallel tasks for large datasets. Stragglers and other failures can severely impact the overall completion time. Recent works in coded computing provide a novel strategy to mitigate stragglers with coded tasks, with an objective of minimizing the number of tasks needed to recover the overall result, known as the recovery threshold. However, we demonstrate that this strict combinatorial definition does not directly optimize the probability of failure. In this paper, we focus on the most likely event and measure the optimality of a coding scheme more directly by its probability of decoding. Our probabilistic approach leads us to a practical construction of random codes for matrix multiplication, i.e., locally random alloy codes, which are optimal with respect to the measures. Furthermore, the probabilistic approach allows us to discover a surprising impossibility theorem about both random and deterministic coded distributed tensors.

arxiv情報

著者 Pedro Soto
発行日 2024-05-08 17:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.2.4, cs.DC, cs.IT, cs.LG, cs.NA, cs.SC, math.IT, math.NA パーマリンク