Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

要約

シーケンス間の長距離依存関係をモデル化することは、機械学習における長年の目標であり、長いシーケンスで Transformer を劇的に上回る状態空間モデルなどのアーキテクチャにつながりました。
ただし、これらの目覚ましい経験的利益は、モデルがランダムに初期化され、入力シーケンスからターゲット ラベルを予測するようにトレーニングされるベンチマーク (例: Long Range Arena) で概ね実証されています。
この研究では、ランダムな初期化がアーキテクチャ間の差異の大幅な過大評価につながることと、$\textit{下流のタスク データのみ}$ を使用した標準のノイズ除去目標による事前トレーニングが、複数のアーキテクチャ間で劇的な向上をもたらし、非常に小さな効果が得られることを示します。
Transformer と状態空間モデル (SSM) の間のギャップ。
以前の研究とはまったく対照的に、適切に事前トレーニングされた場合、バニラのトランスフォーマーはロング レンジ アリーナで S4 のパフォーマンスに匹敵することがわかり、PathX-256 タスクで報告された SSM の最良の結果が 20 絶対ポイント向上しました。
続いて、SSM 用に以前に提案された構造化パラメータ化の有用性を分析し、事前トレーニングを通じて得られたデータ駆動型の初期化が存在する場合にはそれらがほとんど冗長になることを示します。
私たちの研究は、教師ありタスクでさまざまなアーキテクチャを評価する場合、事前トレーニングによるデータ駆動型事前分布の組み込みが信頼性の高いパフォーマンス推定に不可欠であり、効率的に実行できることを示しています。

要約(オリジナル)

Modeling long-range dependencies across sequences is a longstanding goal in machine learning and has led to architectures, such as state space models, that dramatically outperform Transformers on long sequences. However, these impressive empirical gains have been by and large demonstrated on benchmarks (e.g. Long Range Arena), where models are randomly initialized and trained to predict a target label from an input sequence. In this work, we show that random initialization leads to gross overestimation of the differences between architectures and that pretraining with standard denoising objectives, using $\textit{only the downstream task data}$, leads to dramatic gains across multiple architectures and to very small gaps between Transformers and state space models (SSMs). In stark contrast to prior works, we find vanilla Transformers to match the performance of S4 on Long Range Arena when properly pretrained, and we improve the best reported results of SSMs on the PathX-256 task by 20 absolute points. Subsequently, we analyze the utility of previously-proposed structured parameterizations for SSMs and show they become mostly redundant in the presence of data-driven initialization obtained through pretraining. Our work shows that, when evaluating different architectures on supervised tasks, incorporation of data-driven priors via pretraining is essential for reliable performance estimation, and can be done efficiently.

arxiv情報

著者 Ido Amos,Jonathan Berant,Ankit Gupta
発行日 2023-10-04 17:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク