要約
データ・デバッグとは、学習データの部分集合を見つけ、その部分集合に対して再学習を行うことで得られるモデルの精度が向上するようにすることである。多くの発見的アプローチが提案されているが、いずれもこの問題を効果的に解決できる保証はない。このため、再学習によって得られるモデルの精度がより良くなるような部分集合を見つける効率的なアルゴリズムが存在するかどうかという未解決の問題が残されている。この未解決の問題に答え、データデバッグのためのより良いアルゴリズムを開発するための更なる研究の理論的基礎を提供するために、我々はDebuggableと名付けられた問題の計算複雑度を調査する。データセット$D$に対する学習によって得られた機械学習モデル$mathcal{M}$と、テストインスタンス$( \mathbf{x}_text{test},y_text{test})$ が与えられたとき、$mathcal{M}( \mathbf{x}_text{test})Γ y_text{test}$とする、Debuggableとは、$D^prime$で再学習して得られるモデル$mathcal{M}^prime$が$mathcal{M}^prime(neq y_text{test})=y_text{test}$を満たすような$D$の部分集合$D^prime$が存在するかどうかを調べることである。SGDで訓練された線形分類器をモデルとして、一般的によく使われるモデルを幅広くカバーするために、以下の主な結果を導く。(1) 損失関数とモデルの次元が固定されていない場合、SGD中に全ての学習サンプルが処理される学習順序に関わらず、DebuggableはNP完全である。(3) 損失関数が線形関数である場合、Debuggableは線形時間で解くことができる。これらの結果は、現在のアプローチの限界を浮き彫りにするだけでなく、データデバッグに関する新たな知見を提供する。
要約(オリジナル)
Data debugging is to find a subset of the training data such that the model obtained by retraining on the subset has a better accuracy. A bunch of heuristic approaches are proposed, however, none of them are guaranteed to solve this problem effectively. This leaves an open issue whether there exists an efficient algorithm to find the subset such that the model obtained by retraining on it has a better accuracy. To answer this open question and provide theoretical basis for further study on developing better algorithms for data debugging, we investigate the computational complexity of the problem named Debuggable. Given a machine learning model $\mathcal{M}$ obtained by training on dataset $D$ and a test instance $(\mathbf{x}_\text{test},y_\text{test})$ where $\mathcal{M}(\mathbf{x}_\text{test})\neq y_\text{test}$, Debuggable is to determine whether there exists a subset $D^\prime$ of $D$ such that the model $\mathcal{M}^\prime$ obtained by retraining on $D^\prime$ satisfies $\mathcal{M}^\prime(\mathbf{x}_\text{test})=y_\text{test}$. To cover a wide range of commonly used models, we take SGD-trained linear classifier as the model and derive the following main results. (1) If the loss function and the dimension of the model are not fixed, Debuggable is NP-complete regardless of the training order in which all the training samples are processed during SGD. (2) For hinge-like loss functions, a comprehensive analysis on the computational complexity of Debuggable is provided; (3) If the loss function is a linear function, Debuggable can be solved in linear time, that is, data debugging can be solved easily in this case. These results not only highlight the limitations of current approaches but also offer new insights into data debugging.
arxiv情報
著者 | Zizheng Guo,Pengyu Chen,Yanzhang Fu,Dongjing Miao |
発行日 | 2024-08-02 16:17:59+00:00 |
arxivサイト | arxiv_id(pdf) |