要約
AI コミュニティでは大規模モデルの採用が増えているため、それらを統合するための汎用的で柔軟なツールを開発することが重要です。
我々は、訓練可能かつ凍結された事前訓練された基礎モデルを大規模なマルチモーダル ネットワークにシームレスに組み合わせることができる新しいモジュールである Gather-Attend-Scatter (GATS) を紹介します。
GATS は、AI システムが複数のモダリティにわたって異なる速度で情報を処理および生成できるようにします。
従来の微調整とは対照的に、GATS では元のコンポーネント モデルを凍結したままにし、事前トレーニング段階で取得した重要な知識が失われるリスクを回避します。
ゲーム、ロボット工学、マルチモーダル入出力システムにわたるいくつかの実験により、GATS の有用性と多用途性を実証します。
要約(オリジナル)
As the AI community increasingly adopts large-scale models, it is crucial to develop general and flexible tools to integrate them. We introduce Gather-Attend-Scatter (GATS), a novel module that enables seamless combination of pretrained foundation models, both trainable and frozen, into larger multimodal networks. GATS empowers AI systems to process and generate information across multiple modalities at different rates. In contrast to traditional fine-tuning, GATS allows for the original component models to remain frozen, avoiding the risk of them losing important knowledge acquired during the pretraining phase. We demonstrate the utility and versatility of GATS with a few experiments across games, robotics, and multimodal input-output systems.
arxiv情報
著者 | Konrad Zolna,Serkan Cabi,Yutian Chen,Eric Lau,Claudio Fantacci,Jurgis Pasukonis,Jost Tobias Springenberg,Sergio Gomez Colmenarejo |
発行日 | 2024-01-16 17:43:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google