Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

要約

シーケンス間の長距離依存関係をモデル化することは、機械学習における長年の目標であり、長いシーケンスにおいてTransformerを劇的に凌駕する状態空間モデルなどのアーキテクチャにつながっている。しかし、これらの印象的な経験的利益は、モデルがランダムに初期化され、入力シーケンスからターゲットラベルを予測するように学習されるベンチマーク(ロングレンジアリーナなど)で実証されてきた。この研究では、ランダムな初期化はアーキテクチャ間の差の大幅な過大評価につながり、$textit{下流タスクデータのみ}$を用いた標準的なノイズ除去目的での事前学習は、複数のアーキテクチャ間で劇的な利得をもたらし、Transformerと状態空間モデル(SSM)間の差は非常に小さいことを示す。先行研究とは全く対照的に、我々はバニラTransformersが適切に事前訓練された場合、Long Range ArenaにおいてS4の性能に匹敵することを発見し、PathX-256タスクにおいてSSMの報告された最良の結果を20絶対ポイント改善した。また、PathX-256タスクにおけるSSMの最良報告結果を20絶対ポイント改善した。その後、SSMのために以前に提案された構造化パラメータ化の有用性を分析し、事前訓練によって得られるデータ駆動型初期化の存在下で、それらがほとんど冗長になることを示す。我々の研究は、教師ありタスクで様々なアーキテクチャを評価する場合、事前訓練によるデータ駆動型プリオールの組み込みが、信頼性の高い性能推定に不可欠であり、効率的に行えることを示している。

要約(オリジナル)

Modeling long-range dependencies across sequences is a longstanding goal in machine learning and has led to architectures, such as state space models, that dramatically outperform Transformers on long sequences. However, these impressive empirical gains have been by and large demonstrated on benchmarks (e.g. Long Range Arena), where models are randomly initialized and trained to predict a target label from an input sequence. In this work, we show that random initialization leads to gross overestimation of the differences between architectures and that pretraining with standard denoising objectives, using $\textit{only the downstream task data}$, leads to dramatic gains across multiple architectures and to very small gaps between Transformers and state space models (SSMs). In stark contrast to prior works, we find vanilla Transformers to match the performance of S4 on Long Range Arena when properly pretrained, and we improve the best reported results of SSMs on the PathX-256 task by 20 absolute points. Subsequently, we analyze the utility of previously-proposed structured parameterizations for SSMs and show they become mostly redundant in the presence of data-driven initialization obtained through pretraining. Our work shows that, when evaluating different architectures on supervised tasks, incorporation of data-driven priors via pretraining is essential for reliable performance estimation, and can be done efficiently.

arxiv情報

著者 Ido Amos,Jonathan Berant,Ankit Gupta
発行日 2023-12-04 16:01:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク