Spatial Audio Processing with Large Language Model on Wearable Devices

要約

空間的コンテキストを大規模な言語モデル(LLM)に統合することは、特にウェアラブルデバイスで、人間のコンピューターの相互作用に革命をもたらす可能性があります。
この作業では、LLMに空間的な音声理解を組み込んだ新しいシステムアーキテクチャを提示し、ウェアラブルテクノロジーのコンテキスト的に認識し、適応的なアプリケーションを可能にします。
私たちのアプローチは、微細構造ベースの空間センシングを活用して、モノラルマイクを使用して正確な到着方向(DOA)情報を抽出します。
微細構造支援音声録音の既存のデータセットの欠如に対処するために、Librispeechデータセットを使用してOmnitalkと呼ばれるデータセットを合成的に作成します。
この空間情報は、Openaiのささやきモデルからの言語埋め込みと融合されており、各モダリティが補完的なコンテキスト表現を学習できるようにします。
融合した埋め込みは、llama-3.2 3bモデルの入力空間と整列し、軽量適応技術LORAで微調整され、デバイス処理を最適化します。
Singは、空間的に認識された自動音声認識(ASR)をサポートし、25.72^\ cir $の平均誤差を達成します。
Singは、たとえば、何人の人が話しているか、その方向性を推論し、最大5人と16 $^\ circ $のDOAエラーの中央値を推論します。
私たちのシステムは、電力効率、プライバシー、ハードウェアの制約の課題に対処しながら、空間的な音声理解における優れたパフォーマンスを実証し、拡張現実、アクセシビリティ、没入型の体験における高度なアプリケーションへの道を開いています。

要約(オリジナル)

Integrating spatial context into large language models (LLMs) has the potential to revolutionize human-computer interaction, particularly in wearable devices. In this work, we present a novel system architecture that incorporates spatial speech understanding into LLMs, enabling contextually aware and adaptive applications for wearable technologies. Our approach leverages microstructure-based spatial sensing to extract precise Direction of Arrival (DoA) information using a monaural microphone. To address the lack of existing dataset for microstructure-assisted speech recordings, we synthetically create a dataset called OmniTalk by using the LibriSpeech dataset. This spatial information is fused with linguistic embeddings from OpenAI’s Whisper model, allowing each modality to learn complementary contextual representations. The fused embeddings are aligned with the input space of LLaMA-3.2 3B model and fine-tuned with lightweight adaptation technique LoRA to optimize for on-device processing. SING supports spatially-aware automatic speech recognition (ASR), achieving a mean error of $25.72^\circ$-a substantial improvement compared to the 88.52$^\circ$ median error in existing work-with a word error rate (WER) of 5.3. SING also supports soundscaping, for example, inference how many people were talking and their directions, with up to 5 people and a median DoA error of 16$^\circ$. Our system demonstrates superior performance in spatial speech understanding while addressing the challenges of power efficiency, privacy, and hardware constraints, paving the way for advanced applications in augmented reality, accessibility, and immersive experiences.

arxiv情報

著者 Ayushi Mishra,Yang Bai,Priyadarshan Narayanasamy,Nakul Garg,Nirupam Roy
発行日 2025-04-25 15:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク