cs.SD」カテゴリーアーカイブ

Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator

要約 複数の話者の重複した音声は、音声認識と日記作成に重大な課題をもたらします。 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator はコメントを受け付けていません

LMs with a Voice: Spoken Language Modeling beyond Speech Tokens

要約 我々は、事前に訓練された言語モデル (LM) を適応させて音声継続を実行す … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | LMs with a Voice: Spoken Language Modeling beyond Speech Tokens はコメントを受け付けていません

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

要約 STS (Speech-to-Singing) 音声変換タスクは、音声録音 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment はコメントを受け付けていません

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR

要約 新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR はコメントを受け付けていません

AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation

要約 音声直接翻訳 (S2ST) は、音声をある言語から別の言語に変換することを … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation はコメントを受け付けていません

Modulation Extraction for LFO-driven Audio Effects

要約 フェイザー、フランジャー、コーラスなどの低周波発振器 (LFO) 駆動のオ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Modulation Extraction for LFO-driven Audio Effects はコメントを受け付けていません

Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters

要約 自動吹き替え用に音声を翻訳するには、機械翻訳が等時性である必要があります。 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters はコメントを受け付けていません

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech

要約 きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、ト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech はコメントを受け付けていません

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

要約 近年、画像生成のパフォーマンスは大幅に向上しており、拡散モデルが中心的な役 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation はコメントを受け付けていません

Sensing of inspiration events from speech: comparison of deep learning and linguistic methods

要約 呼吸用チェストベルトセンサーを使用して、呼吸数やその他の呼吸器の健康パラメ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Sensing of inspiration events from speech: comparison of deep learning and linguistic methods はコメントを受け付けていません