要約
今日の状況では、スマートフォンは、ローカルでの実行を目的とした多数の深層学習モデルをホストするハブへと進化しました。
この作業を推進する重要な認識は、さまざまなアーキテクチャ、演算子、実装を特徴とするこれらのモデル間の顕著な断片化です。
この断片化により、ハードウェア、システム設定、アルゴリズムの包括的な最適化に大きな負担がかかります。
大規模な基盤モデルの最近の進歩に後押しされて、この取り組みは、モバイル AI の先駆的なパラダイムを導入します。それは、モバイル OS とハードウェア間の協調的な管理アプローチであり、すべてではないにしても、広範囲のモバイル AI タスクに対応できる基盤モデルを監督します。
この基本モデルは NPU 内に存在し、ファームウェアと同様に、アプリや OS のリビジョンの影響を受けません。
同時に、各アプリは、個別の下流タスクに合わせて調整された、簡潔でオフラインの微調整された「アダプター」を提供します。
この概念から、\sys として知られる具体的なインスタンス化が生まれます。
これは、公的に利用可能なラージ言語モデル (LLM) の精選されたものを統合し、動的なデータ フローを促進します。
このコンセプトの実現可能性は、コンピューター ビジョン (CV)、自然言語処理 (NLP)、オーディオ、センシング、マルチモーダル入力などのドメインを含む、50 のデータセットにわたる 38 のモバイル AI タスクを網羅する網羅的なベンチマークの作成によって実証されています。
このベンチマークを超えて、\sys はその印象的なパフォーマンスを明らかにします。
タスクの 85% で同等の精度を達成し、ストレージとメモリの点でスケーラビリティの向上を示し、NPU サポートで強化された商用オフザシェルフ (COTS) モバイル デバイスで満足のいく推論速度を提供します。
これは、個々のアプリケーションに合わせて調整されたタスク固有のモデルとはまったく対照的です。
要約(オリジナル)
In today’s landscape, smartphones have evolved into hubs for hosting a multitude of deep learning models aimed at local execution. A key realization driving this work is the notable fragmentation among these models, characterized by varied architectures, operators, and implementations. This fragmentation imposes a significant burden on the comprehensive optimization of hardware, system settings, and algorithms. Buoyed by the recent strides in large foundation models, this work introduces a pioneering paradigm for mobile AI: a collaborative management approach between the mobile OS and hardware, overseeing a foundational model capable of serving a broad spectrum of mobile AI tasks, if not all. This foundational model resides within the NPU and remains impervious to app or OS revisions, akin to firmware. Concurrently, each app contributes a concise, offline fine-tuned ‘adapter’ tailored to distinct downstream tasks. From this concept emerges a concrete instantiation known as \sys. It amalgamates a curated selection of publicly available Large Language Models (LLMs) and facilitates dynamic data flow. This concept’s viability is substantiated through the creation of an exhaustive benchmark encompassing 38 mobile AI tasks spanning 50 datasets, including domains such as Computer Vision (CV), Natural Language Processing (NLP), audio, sensing, and multimodal inputs. Spanning this benchmark, \sys unveils its impressive performance. It attains accuracy parity in 85\% of tasks, demonstrates improved scalability in terms of storage and memory, and offers satisfactory inference speed on Commercial Off-The-Shelf (COTS) mobile devices fortified with NPU support. This stands in stark contrast to task-specific models tailored for individual applications.
arxiv情報
著者 | Jinliang Yuan,Chen Yang,Dongqi Cai,Shihe Wang,Xin Yuan,Zeling Zhang,Xiang Li,Dingge Zhang,Hanzi Mei,Xianqing Jia,Shangguang Wang,Mengwei Xu |
発行日 | 2024-03-11 16:18:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google