要約
大規模な言語モデル(LLMS)の急速な進歩により、オンバイスAIアプリケーション向けにモバイルデバイスに展開することに関心が高まっています。
モバイルユーザーは、デスクトップユーザーと比較してLLMとは異なって相互作用し、独自の期待とデータバイアスを作成します。
現在のベンチマークデータセットは、主にサーバー環境とデスクトップ環境をターゲットにしており、モバイルコンテキスト向けに特別に設計された広範なデータセットが顕著に不足しています。
さらに、モバイルデバイスは、ストレージおよびコンピューティングリソースの厳格な制限に直面し、モデルのサイズと機能を制約するため、最適化された効率と優先知識が必要です。
これらの課題に対処するために、モバイルインテリジェンスに合わせた大規模なベンチマークデータセットであるMobile-MMLUを紹介します。
これは、現実的なモバイルシナリオでLLMパフォーマンスを評価するために設計された80のモバイル関連フィールドにわたる16,186の質問で構成されています。
挑戦的なサブセットであるMobile-MMLU-Proは、MMLU-Proと同様の高度な評価を提供しますが、標準のフルセットよりもはるかに困難です。
両方のベンチマークは、レシピの提案、旅行計画、不可欠な毎日のタスクなど、実用的なモバイルインタラクションに焦点を当てた複数選択、注文不変の質問を使用しています。
データセットは、推論潜時、エネルギー消費、メモリ使用量、応答品質などの重要なモバイル固有のメトリックを強調し、モバイル制約の下でのモデルパフォーマンスに関する包括的な洞察を提供します。
さらに、プライバシーと適応性を優先し、デバイス上の処理を実行し、ユーザーのプライバシーを維持し、パーソナライズされた使用パターンに適応するモデルの能力を評価します。
Mobile-MMLUファミリーは、モバイル最適化されたLLMを開発および比較するための標準化されたフレームワークを提供し、モバイルコンピューティング環境での生産性と意思決定の進歩を可能にします。
コードとデータは、https://github.com/vila-lab/mobile-mmluで入手できます。
要約(オリジナル)
Rapid advancements in large language models (LLMs) have increased interest in deploying them on mobile devices for on-device AI applications. Mobile users interact differently with LLMs compared to desktop users, creating unique expectations and data biases. Current benchmark datasets primarily target at server and desktop environments, and there is a notable lack of extensive datasets specifically designed for mobile contexts. Additionally, mobile devices face strict limitations in storage and computing resources, constraining model size and capabilities, thus requiring optimized efficiency and prioritized knowledge. To address these challenges, we introduce Mobile-MMLU, a large-scale benchmark dataset tailored for mobile intelligence. It consists of 16,186 questions across 80 mobile-related fields, designed to evaluate LLM performance in realistic mobile scenarios. A challenging subset, Mobile-MMLU-Pro, provides advanced evaluation similar in size to MMLU-Pro but significantly more difficult than our standard full set. Both benchmarks use multiple-choice, order-invariant questions focused on practical mobile interactions, such as recipe suggestions, travel planning, and essential daily tasks. The dataset emphasizes critical mobile-specific metrics like inference latency, energy consumption, memory usage, and response quality, offering comprehensive insights into model performance under mobile constraints. Moreover, it prioritizes privacy and adaptability, assessing models’ ability to perform on-device processing, maintain user privacy, and adapt to personalized usage patterns. Mobile-MMLU family offers a standardized framework for developing and comparing mobile-optimized LLMs, enabling advancements in productivity and decision-making within mobile computing environments. Our code and data are available at: https://github.com/VILA-Lab/Mobile-MMLU.
arxiv情報
著者 | Sondos Mahmoud Bsharat,Mukul Ranjan,Aidar Myrzakhan,Jiacheng Liu,Bowei Guo,Shengkun Tang,Zhuang Liu,Yuanzhi Li,Zhiqiang Shen |
発行日 | 2025-03-26 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google