OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

要約

オムニモーダル学習の最近の進歩は、主に独自のモデル内ではあるものの、画像、テキスト、音声にわたる理解と生成において達成されています。
限定されたオムニモーダル データセットと、リアルタイムの感情的な音声生成に伴う固有の課題が、オープンソースの進歩を妨げています。
これらの問題に対処するために、オムニモーダル アライメントと音声生成を組み合わせて最先端のオムニモーダル大規模言語モデルを開発する 2 段階のトレーニング方法である openomni を提案します。
アライメントフェーズでは、事前トレーニングされた音声モデルがテキスト画像タスクでさらにトレーニングされ、視覚から音声まで(ほぼ)ゼロショットで一般化され、トライモーダルデータセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮します。
音声生成フェーズでは、軽量デコーダが音声タスクのトレーニングと好みの学習を通じてリアルタイムの感情的な音声を容易にします。
実験では、openomni がオムニモーダル、視覚言語、音声言語の評価全体で一貫して向上し、自然で感情豊かな対話とリアルタイムの感情的な音声生成が可能になることが実証されています。

要約(オリジナル)

Recent advancements in omnimodal learning have been achieved in understanding and generation across images, text, and speech, though mainly within proprietary models. Limited omnimodal datasets and the inherent challenges associated with real-time emotional speech generation have hindered open-source progress. To address these issues, we propose openomni, a two-stage training method combining omnimodal alignment and speech generation to develop a state-of-the-art omnimodal large language model. In the alignment phase, a pre-trained speech model is further trained on text-image tasks to generalize from vision to speech in a (near) zero-shot manner, outperforming models trained on tri-modal datasets. In the speech generation phase, a lightweight decoder facilitates real-time emotional speech through training on speech tasks and preference learning. Experiments demonstrate that openomni consistently improves across omnimodal, vision-language, and speech-language evaluations, enabling natural, emotion-rich dialogues and real-time emotional speech generation.

arxiv情報

著者 Run Luo,Ting-En Lin,Haonan Zhang,Yuchuan Wu,Xiong Liu,Min Yang,Yongbin Li,Longze Chen,Jiaming Li,Lei Zhang,Yangyi Chen,Hamid Alinejad-Rokny,Fei Huang
発行日 2025-01-09 15:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク