要約
トランスフォーマーは、多くの場合、大量のトレーニング データを取り込む基礎モデルを構築するための頼りになるアーキテクチャです。
しかし、これらのモデルは、回帰問題でトレーニングされた場合に確率密度分布を推定しませんが、答えの確率分布が非ガウスおよびマルチモーダルになる可能性がある科学の多くの分野では、完全な確率的出力を取得することが重要です。
この研究では、Transformer 上のノイズ除去拡散ヘッドを使用して確率モデルをトレーニングすると、高次元の入力に対しても合理的な確率密度推定が提供されることを実証します。
Transformer+Denoising Diffusion モデルを組み合わせることにより、入力の任意の組み合わせで出力確率密度を調整できるため、考えられるすべての入力/出力の組み合わせに対する柔軟性の高い密度関数エミュレーターとなります。
Transformer+Denoising Diffusion モデルを、天文観測と銀河内の星の測定されたラベルの大規模なデータセットでトレーニングすることによって説明します。また、それをさまざまな推論タスクに適用して、モデルが合理的な分布でラベルを正確に推論できることを示します。
要約(オリジナル)
Transformers are often the go-to architecture to build foundation models that ingest a large amount of training data. But these models do not estimate the probability density distribution when trained on regression problems, yet obtaining full probabilistic outputs is crucial to many fields of science, where the probability distribution of the answer can be non-Gaussian and multimodal. In this work, we demonstrate that training a probabilistic model using a denoising diffusion head on top of the Transformer provides reasonable probability density estimation even for high-dimensional inputs. The combined Transformer+Denoising Diffusion model allows conditioning the output probability density on arbitrary combinations of inputs and it is thus a highly flexible density function emulator of all possible input/output combinations. We illustrate our Transformer+Denoising Diffusion model by training it on a large dataset of astronomical observations and measured labels of stars within our Galaxy and we apply it to a variety of inference tasks to show that the model can infer labels accurately with reasonable distributions.
arxiv情報
著者 | Henry W. Leung,Jo Bovy,Joshua S. Speagle |
発行日 | 2024-07-22 15:10:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google