cs.SD」カテゴリーアーカイブ

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis はコメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-Guided Foley Sound Generation with Multimodal Controls はコメントを受け付けていません

DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music

要約 音楽 AI モデルの表現を定量化し、人間の行動と一致させることは、MIR … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music はコメントを受け付けていません

Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models

要約 本稿では、大規模かつ多様なオーディオエフェクトデータを生成するための合成デ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models はコメントを受け付けていません

Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network

要約 音声認識と話者識別は、セキュリティやパーソナル アシスタントのアプリケーシ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network はコメントを受け付けていません

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

要約 大規模言語モデル (LLM) の急速な発展により、膨大なインテリジェントな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM はコメントを受け付けていません

mHuBERT-147: A Compact Multilingual HuBERT Model

要約 我々は、90,000 時間のクリーンなオープンライセンス データでトレーニ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | mHuBERT-147: A Compact Multilingual HuBERT Model はコメントを受け付けていません

HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset

要約 この寄稿では、イメージ ソース メソッドを使用して作成された 7 次アンビ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset はコメントを受け付けていません

Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN

要約 この論文では、診療所で低コストのシステムを使用して、心臓の異常を高精度かつ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN はコメントを受け付けていません

Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM

要約 テキスト読み上げ (TTS) モデルは、テキストのみのコーパスを使用して自 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM はコメントを受け付けていません