Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling

要約

ディープラーニングの急速に進化する状況において、表現力と計算効率のバランスをとるモデルの探求は、かつてないほど重要になっています。
このペーパーでは、新しいデータ依存の畳み込みメカニズムを組み込むことでシーケンス モデリングを再考する新しいアーキテクチャである Orchid を紹介します。
Orchid は、長距離の依存関係やコンテキスト内学習を捕捉する能力を損なうことなく、従来の注意メカニズムの固有の制限、特に二次関数の複雑さに対処するように設計されています。
Orchid の中核にはデータ依存の畳み込み層があり、専用の調整ニューラル ネットワークを使用して入力データに応じてカーネルを動的に調整します。
適応畳み込み演算においてシフト等分散を維持する 2 つの単純な調整ネットワークを設計します。
データ依存コンボリューション カーネルの動的な性質とゲーティング操作を組み合わせることで、Orchid に高い表現力を与えながら、長いシーケンスの効率と準線形スケーラビリティを維持します。
私たちは、言語モデリングや画像分類を含む複数のドメインにわたって Orchid を厳密に評価し、そのパフォーマンスと汎用性を示します。
私たちの実験では、Orchid アーキテクチャが、モデル サイズが小さい BERT や Vision Transformers などの従来のアテンションベースのアーキテクチャよりも優れているだけでなく、高密度アテンション層の制限を超えて実現可能なシーケンス長も拡張していることが実証されました。
この成果は、シーケンス モデリング用のより効率的でスケーラブルな深層学習モデルに向けた重要な一歩を表しています。

要約(オリジナル)

In the rapidly evolving landscape of deep learning, the quest for models that balance expressivity with computational efficiency has never been more critical. This paper introduces Orchid, a novel architecture that reimagines sequence modeling by incorporating a new data-dependent convolution mechanism. Orchid is designed to address the inherent limitations of traditional attention mechanisms, particularly their quadratic complexity, without compromising the ability to capture long-range dependencies and in-context learning. At the core of Orchid lies the data-dependent convolution layer, which dynamically adjusts its kernel conditioned on input data using a dedicated conditioning neural network. We design two simple conditioning networks that maintain shift equivariance in the adaptive convolution operation. The dynamic nature of data-dependent convolution kernel, coupled with gating operations, grants Orchid high expressivity while maintaining efficiency and quasilinear scalability for long sequences. We rigorously evaluate Orchid across multiple domains, including language modeling and image classification, to showcase its performance and generality. Our experiments demonstrate that Orchid architecture not only outperforms traditional attention-based architectures such as BERT and Vision Transformers with smaller model sizes, but also extends the feasible sequence length beyond the limitations of the dense attention layers. This achievement represents a significant step towards more efficient and scalable deep learning models for sequence modeling.

arxiv情報

著者 Mahdi Karami,Ali Ghodsi
発行日 2024-02-28 17:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク