Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments

要約

オーディオ信号処理における深層強化学習 (DRL) アプローチは近年大幅な進歩を遂げていますが、人間とロボットのインタラクションのコンテキストにおけるナビゲーション、視線制御、頭の向きの制御などのタスクのためのオーディオ駆動型 DRL はほとんど注目されていません。
ここでは、ディープ Q ラーニングを利用して、ステレオ音声録音に基づいた音響環境で話者の方向を向く自律エージェントを開発する、オーディオ駆動型 DRL フレームワークを提案します。
私たちの結果は、エージェントが無響環境(つまり、残響のない環境)で音声セグメントについてトレーニングされた場合、ほぼ完璧なレベルでタスクを実行することを学習したことを示しています。
自然主義的な音響環境における残響の存在はエージェントのパフォーマンスに影響を与えましたが、エージェントは依然としてベースラインのランダムに動作するエージェントよりも大幅に優れていました。
最後に、自然主義的な音響環境全体で提案された DRL アプローチの一般化の程度を定量化しました。
私たちの実験では、中程度または高残響環境でトレーニングされたエージェントによって学習されたポリシーは低残響環境に一般化されましたが、無響音または低残響環境でトレーニングされたエージェントによって学習されたポリシーは中程度または高残響環境には一般化されなかったことが明らかになりました。
まとめると、この研究は、頭の向きの制御などのタスクに対するオーディオ駆動型 DRL の可能性を実証し、現実世界のオーディオ駆動型 DRL アプリケーションの環境全体で堅牢な一般化を可能にするトレーニング戦略の必要性を強調しています。

要約(オリジナル)

Although deep reinforcement learning (DRL) approaches in audio signal processing have seen substantial progress in recent years, audio-driven DRL for tasks such as navigation, gaze control and head-orientation control in the context of human-robot interaction have received little attention. Here, we propose an audio-driven DRL framework in which we utilise deep Q-learning to develop an autonomous agent that orients towards a talker in the acoustic environment based on stereo speech recordings. Our results show that the agent learned to perform the task at a near perfect level when trained on speech segments in anechoic environments (that is, without reverberation). The presence of reverberation in naturalistic acoustic environments affected the agent’s performance, although the agent still substantially outperformed a baseline, randomly acting agent. Finally, we quantified the degree of generalization of the proposed DRL approach across naturalistic acoustic environments. Our experiments revealed that policies learned by agents trained on medium or high reverb environments generalized to low reverb environments, but policies learned by agents trained on anechoic or low reverb environments did not generalize to medium or high reverb environments. Taken together, this study demonstrates the potential of audio-driven DRL for tasks such as head-orientation control and highlights the need for training strategies that enable robust generalization across environments for real-world audio-driven DRL applications.

arxiv情報

著者 Wessel Ledder,Yuzhen Qin,Kiki van der Heijden
発行日 2025-01-17 12:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク