How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities

要約

現実世界のシナリオでは長いシーケンスが大量に発生するため、それらを適切にモデル化することで、多数の下流のユースケースが開かれます。
しかし、ディープ ニューラル ネットワークは、さまざまな理由から、これらの問題にしばしば苦労してきました。
システム エンジニアリングとモデル設計の両方における最近の進歩により、拡張されたコンテキスト長をサポートすると称されるモデルのスケールアップが可能になりました。
特に、モデルの状態空間および線形リカレント ニューラル ネットワーク ファミリは、仮説上、無限のシーケンス長に及ぶ可能性があります。
しかし、これは本当だとするにはあまりにも良いことなのでしょうか?
私たちは評価を行って、そのような主張は理論的には正しいかもしれないが、経験的に観察される実際には大きなギャップが残っていることを示します。
特に、リカレント モデルは、注意が必要なロングコンテキスト LLM と同じ設定でも依然として問題を抱えています。
さらに、さまざまな帰納的バイアスが一貫性のない外挿能力を持っていることを示し、そのようなパラダイムをさらに研究し、ロングコンテキストモデルが期待どおりに動作しないように見える理由を調査する必要性を強調します。

要約(オリジナル)

Long sequences occur in abundance within real-world scenarios, hence properly modelling them opens numerous down-stream use-cases. Deep neural networks, however, have often struggled with these for a variety of reasons. Recent advances, both in system engineering as well as model design, have enabled the scaling up of model that are purported to support extended context length. In particular, the state-space and linear recurrent neural network families of models hypothetically can entend to infinite sequence lenth. However, is this too good to be true? We conduct an evaluation to show that while such claims may be sound theoretically, there remain large practical gaps that are empirically observed. In particular, recurrent models still suffer in the same settings as long-context LLMs with attention. We further show that different inductive biases have inconsistent extrapolation capabilities, highlighting the need to further study such paradigms and investigate why long-context models seemingly fail to behave as one might expect.

arxiv情報

著者 Jerry Huang
発行日 2024-07-26 17:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク