eess.AS」カテゴリーアーカイブ

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

要約 我々はDITTO(Diffusion Inference-Time T-O … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | DITTO: Diffusion Inference-Time T-Optimization for Music Generation はコメントを受け付けていません

SpeechVerse: A Large-scale Generalizable Audio Language Model

要約 大規模言語モデル (LLM) は、自然言語命令の意味的理解を必要とするタス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SpeechVerse: A Large-scale Generalizable Audio Language Model はコメントを受け付けていません

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

要約 複数の生成基盤モデル、特にさまざまなモダリティでトレーニングされたモデルを … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities はコメントを受け付けていません

Iterative Feature Boosting for Explainable Speech Emotion Recognition

要約 音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS, I.2.1 | Iterative Feature Boosting for Explainable Speech Emotion Recognition はコメントを受け付けていません

Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting

要約 ほとんどの音声自己教師あり学習 (SSL) モデルは、入力信号の欠落部分 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting はコメントを受け付けていません

Iterative Feature Boosting for Explainable Speech Emotion Recognition

要約 音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS, I.2.1 | Iterative Feature Boosting for Explainable Speech Emotion Recognition はコメントを受け付けていません

RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text

要約 この作品では、テキストの歌詞入力から直接 3D の全体的な体の動きを生成し … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text はコメントを受け付けていません

BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation

要約 最近のエンドツーエンドのアプローチは、大規模言語モデル (LLM) を音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation はコメントを受け付けていません

Continual Contrastive Spoken Language Understanding

要約 最近、ニューラル ネットワークはさまざまな分野で目覚ましい進歩を遂げており … 続きを読む

カテゴリー: cs.AI, eess.AS | Continual Contrastive Spoken Language Understanding はコメントを受け付けていません

TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms

要約 私たちは、モバイルおよびウェアラブルプラットフォームに適した、音響および骨 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms はコメントを受け付けていません