Configurable Foundation Models: Building LLMs from a Modular Perspective

要約

最近、LLM の進歩により、膨大なパラメーターの要件による計算効率と継続的なスケーラビリティに関連する課題が明らかになり、計算リソースが限られたデバイスやさまざまな能力を必要とするシナリオでのこれらのモデルのアプリケーションと進化がますます困難になっています。
人間の脳内のモジュール化に触発されて、LLM を多数の機能モジュールに分解する傾向が高まっており、モジュールの一部を使用した推論やモジュールの動的アセンブリを可能にして、専門家の混合などの複雑なタスクに取り組むことができます。
モジュール式アプローチの本質的な効率性と構成可能性を強調するために、各機能モジュールを表すブリックという用語を造語し、モジュール化された構造を構成可能な基礎モデルとして指定します。
このペーパーでは、構成可能な基礎モデルの構築、利用、および制限についての包括的な概要と調査を提供します。
まず、モジュールを創発ブリック (トレーニング前の段階で出現する機能ニューロン パーティション) と、カスタマイズ ブリック (LLM の機能と知識を向上させるために追加のポストトレーニングによって構築されるブリック) に形式化します。
多様な機能ブリックに基づいて、取得とルーティング、マージ、更新、拡張という 4 つのブリック指向の操作をさらに示します。
これらの操作により、複雑なタスクを処理するための命令に基づいて LLM を動的に構成できます。
私たちの視点を検証するために、広く使用されている LLM について実証分析を実行します。
FFN 層は、ニューロンの機能的特殊化と機能的ニューロンの分割を備えたモジュール パターンに従っていることがわかりました。
最後に、いくつかの未解決の問題と将来の研究の方向性を強調します。
全体として、このホワイトペーパーは、既存の LLM 研究に新たなモジュール式の視点を提供し、より効率的でスケーラブルな基礎モデルの将来の作成にインスピレーションを与えることを目的としています。

要約(オリジナル)

Advancements in LLMs have recently unveiled challenges tied to computational efficiency and continual scalability due to their requirements of huge parameters, making the applications and evolution of these models on devices with limited computation resources and scenarios requiring various abilities increasingly cumbersome. Inspired by modularity within the human brain, there is a growing tendency to decompose LLMs into numerous functional modules, allowing for inference with part of modules and dynamic assembly of modules to tackle complex tasks, such as mixture-of-experts. To highlight the inherent efficiency and composability of the modular approach, we coin the term brick to represent each functional module, designating the modularized structure as configurable foundation models. In this paper, we offer a comprehensive overview and investigation of the construction, utilization, and limitation of configurable foundation models. We first formalize modules into emergent bricks – functional neuron partitions that emerge during the pre-training phase, and customized bricks – bricks constructed via additional post-training to improve the capabilities and knowledge of LLMs. Based on diverse functional bricks, we further present four brick-oriented operations: retrieval and routing, merging, updating, and growing. These operations allow for dynamic configuration of LLMs based on instructions to handle complex tasks. To verify our perspective, we conduct an empirical analysis on widely-used LLMs. We find that the FFN layers follow modular patterns with functional specialization of neurons and functional neuron partitions. Finally, we highlight several open issues and directions for future research. Overall, this paper aims to offer a fresh modular perspective on existing LLM research and inspire the future creation of more efficient and scalable foundational models.

arxiv情報

著者 Chaojun Xiao,Zhengyan Zhang,Chenyang Song,Dazhi Jiang,Feng Yao,Xu Han,Xiaozhi Wang,Shuo Wang,Yufei Huang,Guanyu Lin,Yingfa Chen,Weilin Zhao,Yuge Tu,Zexuan Zhong,Ao Zhang,Chenglei Si,Khai Hao Moo,Chenyang Zhao,Huimin Chen,Yankai Lin,Zhiyuan Liu,Jingbo Shang,Maosong Sun
発行日 2024-09-04 17:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク