要約
機械学習における中心的な問題である密度推定は、正規化フロー(NF)を用いて行うことができる。NFは、変数変化の定理を利用することで、複雑な対象分布を単純な分布に変える、一連の可逆変換からなる。ニューラル自己回帰フロー(NAF)とブロック自己回帰フロー(B-NAF)は、間違いなくNFファミリーの中で最も高性能なメンバーである。しかし、ネットワーク構造に制約が課されるため、スケーラビリティの問題や学習の不安定性に悩まされている。本論文では、変換器を利用して、変換器ニューラル自己回帰フロー(T-NAF)と呼ばれる新しいクラスのニューラルフローを定義することにより、これらの課題に対する新しいソリューションを提案する。T-NAFはランダム変数の各次元を独立した入力トークンとして扱い、自己回帰制約を強制するためにアテンションマスキングを用いる。我々は、変換器が可逆変換のパラメータを出力する、償却に着想を得たアプローチをとる。実験の結果、T-NAFはUCIベンチマークの複数のデータセットにおいて、NAFとB-NAFに一貫して匹敵するか、凌駕することが実証された。驚くべきことに、T-NAFは、複数のフローを構成することなく、従来のアプローチよりも1桁少ないパラメータでこれらの結果を達成している。
要約(オリジナル)
Density estimation, a central problem in machine learning, can be performed using Normalizing Flows (NFs). NFs comprise a sequence of invertible transformations, that turn a complex target distribution into a simple one, by exploiting the change of variables theorem. Neural Autoregressive Flows (NAFs) and Block Neural Autoregressive Flows (B-NAFs) are arguably the most perfomant members of the NF family. However, they suffer scalability issues and training instability due to the constraints imposed on the network structure. In this paper, we propose a novel solution to these challenges by exploiting transformers to define a new class of neural flows called Transformer Neural Autoregressive Flows (T-NAFs). T-NAFs treat each dimension of a random variable as a separate input token, using attention masking to enforce an autoregressive constraint. We take an amortization-inspired approach where the transformer outputs the parameters of an invertible transformation. The experimental results demonstrate that T-NAFs consistently match or outperform NAFs and B-NAFs across multiple datasets from the UCI benchmark. Remarkably, T-NAFs achieve these results using an order of magnitude fewer parameters than previous approaches, without composing multiple flows.
arxiv情報
著者 | Massimiliano Patacchiola,Aliaksandra Shysheya,Katja Hofmann,Richard E. Turner |
発行日 | 2024-01-03 17:51:16+00:00 |
arxivサイト | arxiv_id(pdf) |