Coupling without Communication and Drafter-Invariant Speculative Decoding

要約

アリスが $P$ の分布を持ち、ボブが $Q$ の分布を持っているとします。
アリスは $a\sim P$ を生成し、ボブは $a = b$ が可能な限り高い確率で成立するサンプル $b \sim Q$ を生成したいと考えています。
分布間の最適な結合からサンプリングすることにより、アリスとボブが $Pr[a = b] = 1 – D_{TV}(P,Q)$ を達成できることはよく知られています。ここで $D_{TV}(
P,Q)$ は総変動距離です。
アリスとボブがまったくコミュニケーションを取らずに同じ問題を解決しなければならない場合はどうなるでしょうか?
おそらく驚くべきことに、公開ランダム性を利用すれば、$Pr[a = b] \geq \frac{1 – D_{TV}(P,Q)}{1 + D_{TV}(P,Q)} を達成することができます。
\geq 1-2D_{TV}(P,Q)$。
実際、この境界は、Weighted MinHash アルゴリズムに基づく単純なプロトコルを使用して取得できます。
この研究では、コミュニケーション不要のカップリングをさらに詳しく調査します。
まず、Gumbel サンプリングに基づく同様に単純なプロトコルが Weighted MinHash アプローチの最悪の場合の保証と一致しますが、実際にはパフォーマンスが向上する傾向があることを示します。
逆に、両方のアプローチが実際に鋭いことを証明します。通信不要のプロトコルでは $Pr[a=b]>\frac{1 – D_{TV}(P,Q)}{1 + D_{TV}(P
,Q)}$ 最悪の場合。
最後に、$n$ アイテムにわたる分布の場合、$Pr[a = b] = 1 – D_ を達成するために $O(\log(n/\epsilon))$ ビットの通信のみを使用するスキームが存在することを証明します。
{TV}(P,Q) – \epsilon$、つまり、本質的に最適な結合に一致します。
理論的な結果を超えて、自己回帰大規模言語モデルを高速化するための最近の方法である投機的復号への通信不要の結合の適用を実証します [Leviathan, Kalman, Matias, ICML 2023]。
我々は、コミュニケーションフリーのプロトコルが、ドラフター不変投機復号と呼ばれる投機復号の変形を生成することを示します。これは、投機にどのドラフターが使用されたかに関係なく、固定のランダムシードが与えられた場合にメソッドの出力が固定されるという望ましい特性を持っています。

要約(オリジナル)

Suppose Alice has a distribution $P$ and Bob has a distribution $Q$. Alice wants to generate a sample $a\sim P$ and Bob a sample $b \sim Q$ such that $a = b$ with has as high of probability as possible. It is well-known that, by sampling from an optimal coupling between the distributions, Alice and Bob can achieve $Pr[a = b] = 1 – D_{TV}(P,Q)$, where $D_{TV}(P,Q)$ is the total variation distance. What if Alice and Bob must solve this same problem without communicating at all? Perhaps surprisingly, with access to public randomness, they can still achieve $Pr[a = b] \geq \frac{1 – D_{TV}(P,Q)}{1 + D_{TV}(P,Q)} \geq 1-2D_{TV}(P,Q)$. In fact, this bound can be obtained using a simple protocol based on the Weighted MinHash algorithm. In this work, we explore the communication-free coupling in greater depth. First, we show that an equally simple protocol based on Gumbel sampling matches the worst-case guarantees of the Weighted MinHash approach, but tends to perform better in practice. Conversely, we prove that both approaches are actually sharp: no communication-free protocol can achieve $Pr[a=b]>\frac{1 – D_{TV}(P,Q)}{1 + D_{TV}(P,Q)}$ in the worst-case. Finally, we prove that, for distributions over $n$ items, there exists a scheme that uses just $O(\log(n/\epsilon))$ bits of communication to achieve $Pr[a = b] = 1 – D_{TV}(P,Q) – \epsilon$, i.e. to essentially match optimal coupling. Beyond our theoretical results, we demonstrate an application of communication-free coupling to speculative decoding, a recent method for accelerating autoregressive large language models [Leviathan, Kalman, Matias, ICML 2023]. We show that communication-free protocols yield a variant of speculative decoding that we call Drafter-Invariant Speculative Decoding, which has the desirable property that the output of the method is fixed given a fixed random seed, regardless of what drafter is used for speculation.

arxiv情報

著者 Majid Daliri,Christopher Musco,Ananda Theertha Suresh
発行日 2024-08-15 06:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DS, cs.LG パーマリンク