Teaching Physical Awareness to LLMs through Sounds

要約

大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を示していますが、実際の物理的現象の理解には、物理​​的な認識が根本的に欠けています。
この作業では、ドップラー効果、マルチパス効果、空間的関係などの基本的な物理現象に焦点を当てた音を通してLLMSの物理的認識を教えるフレームワークであるAcornを提示します。
データ不足を克服するために、Acornは、実際の音源と制御された物理チャネルを組み合わせた物理ベースのシミュレーターを導入して、多様なトレーニングデータを生成します。
このシミュレーターを使用して、包括的なオーディオ質問アンウェーデータセットであるAQA-PHYを構築し、マグニチュード情報とフェーズ情報の両方を処理するオーディオエンコーダーを提案します。
オーディオエンコーダーを最先端のLLMSに接続することにより、見通しの検出、ドップラー効果の推定、到着方向の推定など、シミュレーションと現実世界の両方のタスクで合理的な結果を示し、LLMSが物理的な世界を理解する方法を開明します。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in text and multimodal processing, yet they fundamentally lack physical awareness–understanding of real-world physical phenomena. In this work, we present ACORN, a framework that teaches LLMs physical awareness through sound, focusing on fundamental physical phenomena like the Doppler effect, multipath effect, and spatial relationships. To overcome data scarcity, ACORN introduce a physics-based simulator combining real-world sound sources with controlled physical channels to generate diverse training data. Using this simulator, we build AQA-PHY, a comprehensive Audio Question-Answer dataset, and propose an audio encoder that processes both magnitude and phase information. By connecting our audio encoder to state-of-the-art LLMs, we demonstrate reasonable results in both simulated and real-world tasks, such as line-of-sight detection, Doppler effect estimation, and Direction-of-Arrival estimation, paving the way for enabling LLMs to understand physical world.

arxiv情報

著者 Weiguo Wang,Andy Nie,Wenrui Zhou,Yi Kai,Chengchen Hu
発行日 2025-06-11 05:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS パーマリンク