Qwen2-Audio Technical Report

要約

Qwen-Audio の最新の進歩を紹介します。Qwen2-Audio と呼ばれる大規模な音声言語モデルです。これは、さまざまな音声信号入力を受け入れ、音声分析を実行したり、音声指示に関して直接テキスト応答を実行したりすることができます。
複雑な階層タグとは対照的に、さまざまなデータやタスクに対して自然言語プロンプトを利用することで事前トレーニング プロセスを簡素化し、データ量をさらに拡大しました。
Qwen2-Audio の命令追従機能を強化し、音声チャットと音声分析用に 2 つの異なる音声対話モードを実装しました。
ボイスチャットモードでは、ユーザーはテキスト入力なしで Qwen2-Audio と自由に音声対話を行うことができます。
音声分析モードでは、ユーザーは対話中に分析のための音声およびテキストの指示を提供できます。
ボイスチャットモードとオーディオ分析モードを切り替えるためにシステムプロンプトを使用しないことに注意してください。
Qwen2-Audio は、オーディオ内のコンテンツをインテリジェントに理解し、音声コマンドに従って適切に応答することができます。
たとえば、サウンド、マルチスピーカーの会話、音声コマンドが同時に含まれるオーディオ セグメントでは、Qwen2-Audio はコマンドを直接理解し、オーディオに対する解釈と応答を提供できます。
さらに、DPO は、事実性と望ましい動作の遵守という点でモデルのパフォーマンスを最適化しました。
AIR-Bench の評価結果によると、Qwen2-Audio は、オーディオ中心の命令追従機能に焦点を当てたテストで、Gemini-1.5-pro などの以前の SOTA を上回りました。
Qwen2-Audio は、マルチモーダル言語コミュニティの発展を促進することを目的としてオープンソース化されています。

要約(オリジナル)

We introduce the latest progress of Qwen-Audio, a large-scale audio-language model called Qwen2-Audio, which is capable of accepting various audio signal inputs and performing audio analysis or direct textual responses with regard to speech instructions. In contrast to complex hierarchical tags, we have simplified the pre-training process by utilizing natural language prompts for different data and tasks, and have further expanded the data volume. We have boosted the instruction-following capability of Qwen2-Audio and implemented two distinct audio interaction modes for voice chat and audio analysis. In the voice chat mode, users can freely engage in voice interactions with Qwen2-Audio without text input. In the audio analysis mode, users could provide audio and text instructions for analysis during the interaction. Note that we do not use any system prompts to switch between voice chat and audio analysis modes. Qwen2-Audio is capable of intelligently comprehending the content within audio and following voice commands to respond appropriately. For instance, in an audio segment that simultaneously contains sounds, multi-speaker conversations, and a voice command, Qwen2-Audio can directly understand the command and provide an interpretation and response to the audio. Additionally, DPO has optimized the model’s performance in terms of factuality and adherence to desired behavior. According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities. Qwen2-Audio is open-sourced with the aim of fostering the advancement of the multi-modal language community.

arxiv情報

著者 Yunfei Chu,Jin Xu,Qian Yang,Haojie Wei,Xipin Wei,Zhifang Guo,Yichong Leng,Yuanjun Lv,Jinzheng He,Junyang Lin,Chang Zhou,Jingren Zhou
発行日 2024-07-15 14:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク