SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing

要約

センサーデータの効果的な処理、解釈、管理は、サイバーフィジカルシステムの重要なコンポーネントとして浮上しています。
従来、センサー データの処理には、深い理論的知識と信号処理ツールの熟練度が必要でした。
しかし、最近の研究では、大規模言語モデル (LLM) が感覚データの処理において有望な機能を備えていることが示されており、感覚システム開発の副操縦士としての可能性が示唆されています。
この可能性を探るため、包括的なベンチマークである SensorBench を構築し、定量化可能な目標を確立しました。
このベンチマークには、さまざまなタスク用の多様な現実世界のセンサー データセットが組み込まれています。
結果は、LLM は単純なタスクではかなりの熟練度を示しますが、エンジニアリングの専門家と比較して、パラメーターを選択する構成タスクを処理する際に固有の課題に直面していることを示しています。
さらに、センサー処理のための 4 つのプロンプト戦略を調査し、自己検証がタスクの 48% で他のすべてのベースラインを上回るパフォーマンスを発揮できることを示しました。
私たちの調査は、包括的なベンチマークと将来の開発に向けた分析を提供し、LLM ベースのセンサー処理コパイロットへの道を開きます。

要約(オリジナル)

Effective processing, interpretation, and management of sensor data have emerged as a critical component of cyber-physical systems. Traditionally, processing sensor data requires profound theoretical knowledge and proficiency in signal-processing tools. However, recent works show that Large Language Models (LLMs) have promising capabilities in processing sensory data, suggesting their potential as copilots for developing sensing systems. To explore this potential, we construct a comprehensive benchmark, SensorBench, to establish a quantifiable objective. The benchmark incorporates diverse real-world sensor datasets for various tasks. The results show that while LLMs exhibit considerable proficiency in simpler tasks, they face inherent challenges in processing compositional tasks with parameter selections compared to engineering experts. Additionally, we investigate four prompting strategies for sensor processing and show that self-verification can outperform all other baselines in 48% of tasks. Our study provides a comprehensive benchmark and prompting analysis for future developments, paving the way toward an LLM-based sensor processing copilot.

arxiv情報

著者 Pengrui Quan,Xiaomin Ouyang,Jeya Vikranth Jeyakumar,Ziqi Wang,Yang Xing,Mani Srivastava
発行日 2024-10-14 17:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP パーマリンク