AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation

要約

ニューラル ネットワーク アーキテクチャの設計では、多くの重要な決定を行う必要があります。
共通の要望は、同様の決定を少し変更するだけで、さまざまなタスクやアプリケーションで再利用できることです。
これを満たすために、アーキテクチャは、有望なレイテンシーとパフォーマンスのトレードオフを提供し、さまざまなタスクをサポートし、データとコンピューティングの量に関して効率的に拡張し、他のタスクから利用可能なデータを活用し、さまざまなハードウェアを効率的にサポートする必要があります。
この目的を達成するために、畳み込みブロックと変換ブロックの両方を組み合わせたハイブリッド アーキテクチャである AsCAN を導入します。
私たちは、ハイブリッド アーキテクチャの重要な設計原則を再考し、シンプルで効果的な \emph{非対称} アーキテクチャを提案します。このアーキテクチャでは、畳み込みブロックと変換ブロックの分布が \emph{非対称} で、初期段階により多くの畳み込みブロックが含まれ、その後により多くの変換ブロックが続きます。
後の段階でブロックします。
AsCAN は、認識、セグメンテーション、クラス条件付き画像生成などのさまざまなタスクをサポートし、パフォーマンスと遅延の間の優れたトレードオフを特徴としています。
次に、同じアーキテクチャを拡張して大規模なテキストから画像へのタスクを解決し、最新の公開および商用モデルと比較して最先端のパフォーマンスを示します。
特に、transformer ブロックの計算最適化がなくても、当社のモデルは効率的なアテンション メカニズムを備えた既存の研究よりも速い推論速度を実現しており、当社のアプローチの利点と価値を強調しています。

要約(オリジナル)

Neural network architecture design requires making many crucial decisions. The common desiderata is that similar decisions, with little modifications, can be reused in a variety of tasks and applications. To satisfy that, architectures must provide promising latency and performance trade-offs, support a variety of tasks, scale efficiently with respect to the amounts of data and compute, leverage available data from other tasks, and efficiently support various hardware. To this end, we introduce AsCAN — a hybrid architecture, combining both convolutional and transformer blocks. We revisit the key design principles of hybrid architectures and propose a simple and effective \emph{asymmetric} architecture, where the distribution of convolutional and transformer blocks is \emph{asymmetric}, containing more convolutional blocks in the earlier stages, followed by more transformer blocks in later stages. AsCAN supports a variety of tasks: recognition, segmentation, class-conditional image generation, and features a superior trade-off between performance and latency. We then scale the same architecture to solve a large-scale text-to-image task and show state-of-the-art performance compared to the most recent public and commercial models. Notably, even without any computation optimization for transformer blocks, our models still yield faster inference speed than existing works featuring efficient attention mechanisms, highlighting the advantages and the value of our approach.

arxiv情報

著者 Anil Kag,Huseyin Coskun,Jierun Chen,Junli Cao,Willi Menapace,Aliaksandr Siarohin,Sergey Tulyakov,Jian Ren
発行日 2024-11-07 18:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク