要約
この作業では、SparseGPT [Frantar, Alistarh ICML 2023] の実行時間の分析を $O(d^{3})$ から $O(d^{\omega} + d^{2+a+) に改善しました。
o(1)} + d^{1+\omega(1,1,a)-a})$ は、任意の $a \in [0, 1]$ に対して計算されます。$\omega$ は行列乗算の指数です。
特に、現在の $\omega \約 2.371$ [Alman, Duan, Williams, Xu, Xu, Zhou 2024] の場合、実行時間は $O(d^{2.53})$ になります。
この実行時間は、[Deng、Song、Weinstein 2022、Brand、Song、Zhou ICML 2024] などの反復メンテナンス問題における遅延更新動作の分析によるものです。
要約(オリジナル)
In this work, we improved the analysis of the running time of SparseGPT [Frantar, Alistarh ICML 2023] from $O(d^{3})$ to $O(d^{\omega} + d^{2+a+o(1)} + d^{1+\omega(1,1,a)-a})$ for any $a \in [0, 1]$, where $\omega$ is the exponent of matrix multiplication. In particular, for the current $\omega \approx 2.371$ [Alman, Duan, Williams, Xu, Xu, Zhou 2024], our running times boil down to $O(d^{2.53})$. This running time is due to the analysis of the lazy update behavior in iterative maintenance problems, such as [Deng, Song, Weinstein 2022, Brand, Song, Zhou ICML 2024].
arxiv情報
著者 | Xiaoyu Li,Yingyu Liang,Zhenmei Shi,Zhao Song |
発行日 | 2024-08-22 06:40:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google