要約
タイトル: 感情を持った社会的人間形態のインテリジェントシステム
要約:
– 人の会話スタイルは、ユーモアの感覚、パーソナリティ、声のトーンで計測される。これらの特性は、会話型インテリジェント仮想アシスタントにとって不可欠となっている。しかし、最新のインテリジェント仮想アシスタントのほとんどは、人の声の感情的な意味を解釈することができない。
– この研究では、感情やパーソナリティを持つ適切な人間らしい会話を行うことができる人間形態のインテリジェントシステムを提案する。感情を伝えるための声のスタイル変換手法も提案される。
– 初めに、音符、ピッチ、リズム、メロディなどの音声特徴の離散的なパターンを含む時間的な音声波データを変換して周波数領域データ(Mel-Spectrogram)が作成される。
– 声は、ディープスピーチに並列に供給され、スペクトログラムからテキストの転写を生成するRNNモデルによって転写される。そして、転写されたテキストは、ブレンドスキルトーク、トランスフォーマーベースの取得と生成、ビームサーチデコーディングを使用したマルチドメイン会話エージェントに転送され、適切なテキスト応答が生成される。
– システムは、データから潜在空間への可逆マッピングを学習し、前のMel-spectrogramフレームに基づいてMel-spectrogramフレームを生成して音声合成とスタイル変換を行う。最後に、スペクトログラムからWaveformが生成される。
– 個々のモデルについて行われた研究の結果は有望であった。さらに、システムとやり取りしたユーザーは、システムの有効性を示す肯定的なフィードバックを提供した。
要約(オリジナル)
Human conversational styles are measured by the sense of humor, personality, and tone of voice. These characteristics have become essential for conversational intelligent virtual assistants. However, most of the state-of-the-art intelligent virtual assistants (IVAs) are failed to interpret the affective semantics of human voices. This research proposes an anthropomorphic intelligent system that can hold a proper human-like conversation with emotion and personality. A voice style transfer method is also proposed to map the attributes of a specific emotion. Initially, the frequency domain data (Mel-Spectrogram) is created by converting the temporal audio wave data, which comprises discrete patterns for audio features such as notes, pitch, rhythm, and melody. A collateral CNN-Transformer-Encoder is used to predict seven different affective states from voice. The voice is also fed parallelly to the deep-speech, an RNN model that generates the text transcription from the spectrogram. Then the transcripted text is transferred to the multi-domain conversation agent using blended skill talk, transformer-based retrieve-and-generate generation strategy, and beam-search decoding, and an appropriate textual response is generated. The system learns an invertible mapping of data to a latent space that can be manipulated and generates a Mel-spectrogram frame based on previous Mel-spectrogram frames to voice synthesize and style transfer. Finally, the waveform is generated using WaveGlow from the spectrogram. The outcomes of the studies we conducted on individual models were auspicious. Furthermore, users who interacted with the system provided positive feedback, demonstrating the system’s effectiveness.
arxiv情報
著者 | Md. Adyelullahil Mamun,Hasnat Md. Abdullah,Md. Golam Rabiul Alam,Muhammad Mehedi Hassan,Md. Zia Uddin |
発行日 | 2023-04-19 18:24:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI