On the generalization capacity of neural networks during generic multimodal reasoning

要約

Transformer の出現により、人間のような機能を実証する大規模言語モデル (LLM) の開発が行われました。
このクラスのモデルと他のさまざまな基本ニューラル ネットワーク アーキテクチャのマルチモーダル ドメインに対する汎用性を評価するために、マルチモーダル一般化の能力を評価および比較しました。
マルチモーダルな質問と回答のベンチマークを導入して、3 つの特定の種類の分布外 (OOD) 汎化パフォーマンス、つまりディストラクター汎化 (ディストラクターの存在下での汎化)、体系的構成的汎化 (新しいタスクの順列への汎化)、および生産的な構成的汎化を評価します。
一般化 (より複雑なタスク構造への一般化)。
私たちは、モデル アーキテクチャ (RNN、トランスフォーマー、パーシーバーなど) 全体で、複数のアテンション層を持つモデル、または入力ドメイン間のクロスアテンション メカニズムを活用したモデルの方がうまく機能することを発見しました。
私たちの肯定的な結果は、マルチモーダルディストラクターと系統的一般化にとって、クロスモーダル注意またはより深い注意レイヤーを持つモデルのいずれかが、マルチモーダル入力を統合するために必要な主要なアーキテクチャ機能であることを示しています。
一方で、これらのアーキテクチャの特徴はどちらも生産的な一般化には至らず、特定のタイプのマルチモーダル一般化に対する既存のアーキテクチャの根本的な制限を示唆しています。
これらの結果は、マルチモーダル推論のための最新のニューラル モデルの基礎となる特定のアーキテクチャ コンポーネントの長所と限界を示しています。
最後に、今後の研究のために、複数のマルチモーダル汎化分割を備えた構成可能なベンチマークである Generic COG (gCOG) を提供します。

要約(オリジナル)

The advent of the Transformer has led to the development of large language models (LLM), which appear to demonstrate human-like capabilities. To assess the generality of this class of models and a variety of other base neural network architectures to multimodal domains, we evaluated and compared their capacity for multimodal generalization. We introduce a multimodal question-answer benchmark to evaluate three specific types of out-of-distribution (OOD) generalization performance: distractor generalization (generalization in the presence of distractors), systematic compositional generalization (generalization to new task permutations), and productive compositional generalization (generalization to more complex tasks structures). We found that across model architectures (e.g., RNNs, Transformers, Perceivers, etc.), models with multiple attention layers, or models that leveraged cross-attention mechanisms between input domains, fared better. Our positive results demonstrate that for multimodal distractor and systematic generalization, either cross-modal attention or models with deeper attention layers are key architectural features required to integrate multimodal inputs. On the other hand, neither of these architectural features led to productive generalization, suggesting fundamental limitations of existing architectures for specific types of multimodal generalization. These results demonstrate the strengths and limitations of specific architectural components underlying modern neural models for multimodal reasoning. Finally, we provide Generic COG (gCOG), a configurable benchmark with several multimodal generalization splits, for future studies to explore.

arxiv情報

著者 Takuya Ito,Soham Dan,Mattia Rigotti,James Kozloski,Murray Campbell
発行日 2024-01-26 17:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク