Revisiting Sliced Wasserstein on Images: From Vectorization to Convolution

要約

従来のスライス化されたワッサースタインは、実現をベクトルとして持つ 2 つの確率測度の間で定義されます。
画像の 2 つの確率尺度を比較する場合、実務者はまず画像をベクトル化し、次にサンプル行列と射影行列の間の行列乗算を使用して、それらを 1 次元空間に射影する必要があります。
その後、2 つの対応する 1 次元の予測確率測定値を平均することによって、スライスされたワッサースタインが評価されます。
ただし、このアプローチには 2 つの制限があります。
最初の制限は、画像の空間構造がベクトル化ステップによって効率的にキャプチャされないことです。
したがって、後のスライス プロセスでは、不一致情報を収集するのが難しくなります。
2 番目の制限は、各スライス方向がイメージと同じ次元を持つベクトルであるため、メモリの非効率性です。
これらの制限に対処するために、畳み込み演算子に基づく画像の確率測定間のスライスされたワッサースタインの新しいスライス方法を提案します。
畳み込み演算子にストライド、拡張、および非線形活性化関数を組み込むことにより、畳み込みスライス ワッサースタイン (CSW) とそのバリアントを導出します。
CSW の計量性、サンプルの複雑さ、計算の複雑さ、および従来のスライスされたワッサースタイン距離との関係を調査します。
最後に、画像の確率測定を比較し、画像の深い生成モデリングをトレーニングする際に、従来のスライスされたワッサースタインよりもCSWの良好なパフォーマンスを示します。

要約(オリジナル)

The conventional sliced Wasserstein is defined between two probability measures that have realizations as vectors. When comparing two probability measures over images, practitioners first need to vectorize images and then project them to one-dimensional space by using matrix multiplication between the sample matrix and the projection matrix. After that, the sliced Wasserstein is evaluated by averaging the two corresponding one-dimensional projected probability measures. However, this approach has two limitations. The first limitation is that the spatial structure of images is not captured efficiently by the vectorization step; therefore, the later slicing process becomes harder to gather the discrepancy information. The second limitation is memory inefficiency since each slicing direction is a vector that has the same dimension as the images. To address these limitations, we propose novel slicing methods for sliced Wasserstein between probability measures over images that are based on the convolution operators. We derive convolution sliced Wasserstein (CSW) and its variants via incorporating stride, dilation, and non-linear activation function into the convolution operators. We investigate the metricity of CSW as well as its sample complexity, its computational complexity, and its connection to conventional sliced Wasserstein distances. Finally, we demonstrate the favorable performance of CSW over the conventional sliced Wasserstein in comparing probability measures over images and in training deep generative modeling on images.

arxiv情報

著者 Khai Nguyen,Nhat Ho
発行日 2022-09-23 14:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク