cs.SD」カテゴリーアーカイブ

Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding

要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding はコメントを受け付けていません

Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments

要約 オーディオ信号処理における深層強化学習 (DRL) アプローチは近年大幅な … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments はコメントを受け付けていません

MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI

要約 以前のリアルタイム MRI (rtMRI) ベースの音声合成モデルは、ノイ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI はコメントを受け付けていません

Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

要約 自動音声認識 (ASR) システムは、構音障害のある音声に対してはパフォー … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR はコメントを受け付けていません

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

要約 音声には、内容、パラ言語、環境情報などを含むがこれらに限定されない豊富な情 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words はコメントを受け付けていません

AudioBERT: Audio Knowledge Augmented Language Model

要約 最近の研究では、テキストのみのデータセットで事前トレーニングされた言語モデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | AudioBERT: Audio Knowledge Augmented Language Model はコメントを受け付けていません

Sines, Transient, Noise Neural Modeling of Piano Notes

要約 この論文では、ピアノサウンドをエミュレートする新しい方法を紹介します。 正 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Sines, Transient, Noise Neural Modeling of Piano Notes はコメントを受け付けていません

Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models

要約 この論文では、選択的状態空間モデルを備えたディープ ニューラル ネットワー … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models はコメントを受け付けていません

Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation

要約 この論文では、コンピューター ビジョンの Frechet Inceptio … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation はコメントを受け付けていません

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction はコメントを受け付けていません