Transformers can optimally learn regression mixture models

要約

混合モデルは多くの回帰問題で発生しますが、これらのアルゴリズムの高度に調整されたモデル固有の性質のため、ほとんどの手法の採用は限られています。
一方、トランスフォーマーは柔軟なニューラル シーケンス モデルであり、この混合設定でも汎用の予測方法を提供できる興味深い可能性を示します。
この研究では、変換器が回帰の混合に対する最適な予測子を学習できるという仮説を調査します。
線形回帰の混合に対する生成プロセスを構築します。このプロセスに対して、決定理論的な最適手順は、パラメータの有限セットに対するデータ駆動型の指数関数的な重みによって与えられます。
このプロセスで生成されたデータでは、トランスフォーマーが低い平均二乗誤差を達成していることがわかります。
推論時にトランスフォーマーの出力を調査することで、トランスフォーマーが通常、最適な予測子に近い予測を行うことも示します。
私たちの実験は、トランスフォーマーがサンプル効率的な方法で回帰の混合を学習でき、分布のシフトに対してある程度堅牢であることも示しています。
私たちは、決定理論の最適な手順が実際に変換器によって実装可能であることを建設的に証明することで、実験的な観察を補完します。

要約(オリジナル)

Mixture models arise in many regression problems, but most methods have seen limited adoption partly due to these algorithms’ highly-tailored and model-specific nature. On the other hand, transformers are flexible, neural sequence models that present the intriguing possibility of providing general-purpose prediction methods, even in this mixture setting. In this work, we investigate the hypothesis that transformers can learn an optimal predictor for mixtures of regressions. We construct a generative process for a mixture of linear regressions for which the decision-theoretic optimal procedure is given by data-driven exponential weights on a finite set of parameters. We observe that transformers achieve low mean-squared error on data generated via this process. By probing the transformer’s output at inference time, we also show that transformers typically make predictions that are close to the optimal predictor. Our experiments also demonstrate that transformers can learn mixtures of regressions in a sample-efficient fashion and are somewhat robust to distribution shifts. We complement our experimental observations by proving constructively that the decision-theoretic optimal procedure is indeed implementable by a transformer.

arxiv情報

著者 Reese Pathak,Rajat Sen,Weihao Kong,Abhimanyu Das
発行日 2023-11-14 18:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク