EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language Interactions

要約

このペーパーでは、スマートホーム環境でのマルチセッションの自然言語の相互作用からのユーザープロファイリングに重点を置いて、エッジデバイスに展開可能な小言語モデルを評価および改善するために設計された新しいデータセットと評価ベンチマークを紹介します。
データセットのコアには構造化されたユーザープロファイルがあり、それぞれがルーチンのセットで定義されています – ユーザーがホームシステムとの対話方法を支配するコンテキストトリガーされた再現可能な動作パターン。
これらのプロファイルを入力として使用すると、大規模な言語モデル(LLM)は、ユーザーとそのデバイス間の現実的で多様な、コンテキスト認識の対話をシミュレートする対応するインタラクションセッションを生成します。
このデータセットでサポートされている主なタスクは、プロファイルの再構成です。ユーザールーチンとインタラクション履歴のみからの好みを推測します。
現在のモデルが現実的な条件下でこのタスクをどれだけうまく実行できるかを評価するために、いくつかの最先端のコンパクト言語モデルをベンチマークし、そのパフォーマンスを大規模な基礎モデルと比較しました。
私たちの結果は、小さなモデルがプロファイルの再構築に何らかの能力を示しているが、ユーザーの動作を正確にキャプチャする際に大きなモデルに著しく不足していることを示しています。
このパフォーマンスのギャップは、特にオンデバイス処理がユーザーのプライバシーの維持、レイテンシの最小化、クラウドに依存せずにパーソナライズされたエクスペリエンスを可能にするなど、重要な利点を提供するため、大きな課題をもたらします。
これらの制約の下で行動モデリングを開発および評価するための現実的で構造化されたテストベッドを提供することにより、我々のデータセットは、ユーザー所有のデバイスで直接学習し、適応するインテリジェントでプライバシーを提供するAIシステムを有効にするための重要なステップを表します。

要約(オリジナル)

This paper introduces a novel dataset and evaluation benchmark designed to assess and improve small language models deployable on edge devices, with a focus on user profiling from multi-session natural language interactions in smart home environments. At the core of the dataset are structured user profiles, each defined by a set of routines – context-triggered, repeatable patterns of behavior that govern how users interact with their home systems. Using these profiles as input, a large language model (LLM) generates corresponding interaction sessions that simulate realistic, diverse, and context-aware dialogues between users and their devices. The primary task supported by this dataset is profile reconstruction: inferring user routines and preferences solely from interactions history. To assess how well current models can perform this task under realistic conditions, we benchmarked several state-of-the-art compact language models and compared their performance against large foundation models. Our results show that while small models demonstrate some capability in reconstructing profiles, they still fall significantly short of large models in accurately capturing user behavior. This performance gap poses a major challenge – particularly because on-device processing offers critical advantages, such as preserving user privacy, minimizing latency, and enabling personalized experiences without reliance on the cloud. By providing a realistic, structured testbed for developing and evaluating behavioral modeling under these constraints, our dataset represents a key step toward enabling intelligent, privacy-respecting AI systems that learn and adapt directly on user-owned devices.

arxiv情報

著者 Patryk Bartkowiak,Michal Podstawski
発行日 2025-05-16 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク