要約
AI 生成コンテンツ (AIGC) の開発に伴い、テキスト音声変換モデルが広く注目を集めています。
ただし、自然言語に固有の情報密度とモデルの理解能力が限られているため、これらのモデルが人間の好みに合わせた音声を生成することは困難です。
この問題を軽減するために、人間の好みのフィードバックを使用して、生成された音声とテキスト プロンプトの間の調整を強化するように設計されたフレームワークである BATON を策定しました。
私たちの BATON は 3 つの主要な段階で構成されています。まず、プロンプトと対応する生成された音声の両方を含むデータセットを厳選し、人間のフィードバックに基づいて注釈を付けました。
次に、構築されたデータセットを使用して報酬モデルを導入しました。これは、入力テキストと音声のペアに報酬を割り当てることで人間の好みを模倣できます。
最後に、報酬モデルを使用して、既製のテキストからオーディオへのモデルを微調整しました。
実験結果は、私たちの BATON が、オーディオの完全性、時間的関係、および人間の好みとの整合性に関して、元のテキストからオーディオへのモデルの生成品質を大幅に向上できることを示しています。
要約(オリジナル)
With the development of AI-Generated Content (AIGC), text-to-audio models are gaining widespread attention. However, it is challenging for these models to generate audio aligned with human preference due to the inherent information density of natural language and limited model understanding ability. To alleviate this issue, we formulate the BATON, a framework designed to enhance the alignment between generated audio and text prompt using human preference feedback. Our BATON comprises three key stages: Firstly, we curated a dataset containing both prompts and the corresponding generated audio, which was then annotated based on human feedback. Secondly, we introduced a reward model using the constructed dataset, which can mimic human preference by assigning rewards to input text-audio pairs. Finally, we employed the reward model to fine-tune an off-the-shelf text-to-audio model. The experiment results demonstrate that our BATON can significantly improve the generation quality of the original text-to-audio models, concerning audio integrity, temporal relationship, and alignment with human preference.
arxiv情報
| 著者 | Huan Liao,Haonan Han,Kai Yang,Tianjiao Du,Rui Yang,Zunnan Xu,Qinmei Xu,Jingquan Liu,Jiasheng Lu,Xiu Li |
| 発行日 | 2024-02-01 16:39:47+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google