Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback

要約

テキストレスの音声言語モデル(SLM)は、エンドツーエンドの音声からスピーチモデリングの可能性を示していますが、セマンティックな一貫性と関連性の観点から、テキストベースの大手言語モデル(LLM)に遅れをとっています。
この作業では、SLMSの意味的理解を高めるために、AIフィードバック(RLAIF)による補強学習に触発された好みの最適化を活用するAlign-SLMフレームワークを紹介します。
私たちのアプローチは、特定のプロンプトから複数の音声継続を生成し、セマンティックメトリックを使用して、直接設定最適化(DPO)の優先データを作成します。
語彙および構文モデリングのZerospeech 2021ベンチマーク、セマンティックコヒーレンスのためのStoryClozeデータセットの音声バージョン、およびGPT4-Oスコアや人間の評価を含むその他の音声生成メトリックを使用して、フレームワークを評価します。
実験結果は、私たちの方法がほとんどのベンチマークでSLMSの最先端のパフォーマンスを達成し、SLMSのセマンティクスを改善するための優先最適化の重要性を強調していることを示しています。

要約(オリジナル)

While textless Spoken Language Models (SLMs) have shown potential in end-to-end speech-to-speech modeling, they still lag behind text-based Large Language Models (LLMs) in terms of semantic coherence and relevance. This work introduces the Align-SLM framework, which leverages preference optimization inspired by Reinforcement Learning with AI Feedback (RLAIF) to enhance the semantic understanding of SLMs. Our approach generates multiple speech continuations from a given prompt and uses semantic metrics to create preference data for Direct Preference Optimization (DPO). We evaluate the framework using ZeroSpeech 2021 benchmarks for lexical and syntactic modeling, the spoken version of the StoryCloze dataset for semantic coherence, and other speech generation metrics, including the GPT4-o score and human evaluation. Experimental results show that our method achieves state-of-the-art performance for SLMs on most benchmarks, highlighting the importance of preference optimization to improve the semantics of SLMs.

arxiv情報

著者 Guan-Ting Lin,Prashanth Gurunath Shivakumar,Aditya Gourav,Yile Gu,Ankur Gandhe,Hung-yi Lee,Ivan Bulyko
発行日 2025-05-27 16:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク