要約
小規模言語モデル (SLM) はモバイル展開に有望である一方で、スマートフォン上での実際のパフォーマンスとアプリケーションについてはまだ解明されていません。
モバイル デバイスでのドキュメント支援タスク用に最適化された SLM シリーズである SlimLM を紹介します。
Samsung Galaxy S24 での広範な実験を通じて、効率的なオンデバイス処理のためのモデル サイズ (125M ~ 7B パラメーターの範囲)、コンテキストの長さ、推論時間の間の最適なトレードオフを特定しました。
SlimLM は、SlimPajama-627B で事前トレーニングされ、要約、質問応答、提案タスク用に構築されたデータセットである DocAssist で微調整されています。
当社の最小モデルは S24 で効率的なパフォーマンスを示し、より大きなモデルはモバイルの制約内で強化された機能を提供します。
私たちは SlimLM を既存の SLM と比較して評価し、同等またはそれ以上のパフォーマンスを示し、オンデバイス言語モデルの将来の研究のためのベンチマークを提供します。
また、SLM 導入に関する実践的な洞察を提供する Android アプリケーションも提供しています。
私たちの調査結果は貴重な洞察を提供し、ハイエンドのスマートフォンで高度な言語モデルを実行する機能を明らかにし、サーバーコストを削減し、オンデバイス処理を通じてプライバシーを強化する可能性があります。
要約(オリジナル)
While small language models (SLMs) show promises for mobile deployment, their real-world performance and applications on smartphones remains underexplored. We present SlimLM, a series of SLMs optimized for document assistance tasks on mobile devices. Through extensive experiments on a Samsung Galaxy S24, we identify the optimal trade-offs between model size (ranging from 125M to 7B parameters), context length, and inference time for efficient on-device processing. SlimLM is pre-trained on SlimPajama-627B and fine-tuned on DocAssist, our constructed dataset for summarization, question answering and suggestion tasks. Our smallest model demonstrates efficient performance on S24, while larger variants offer enhanced capabilities within mobile constraints. We evaluate SlimLM against existing SLMs, showing comparable or superior performance and offering a benchmark for future research in on-device language models. We also provide an Android application, offering practical insights into SLM deployment. Our findings provide valuable insights and illuminate the capabilities of running advanced language models on high-end smartphones, potentially reducing server costs and enhancing privacy through on-device processing.
arxiv情報
著者 | Thang M. Pham,Phat T. Nguyen,Seunghyun Yoon,Viet Dac Lai,Franck Dernoncourt,Trung Bui |
発行日 | 2024-11-15 04:44:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google