eess.AS」カテゴリーアーカイブ

ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality

要約 テキストでの有毒な音声検出に関する広範な研究にもかかわらず、音声のマンダリ … 続きを読む

カテゴリー: cs.CL, eess.AS | コメントする

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

要約 個別の音声トークンは、言語モデルベースの音声生成に強い可能性を示しています … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

dMel: Speech Tokenization made Simple

要約 大規模な言語モデルは、膨大なテキストデータに自己監視された事前供与を活用す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントする

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

要約 視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントする

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

要約 視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVS … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントする

Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling

要約 自己学習学習(SSL)の最近の開発は、スピーカー検証(SV)の重要な可能性 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | コメントする

Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples

要約 オーディオ認識の大規模な言語モデル(ALLMS)の最近の進歩により、オーデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

SSPS: Self-Supervised Positive Sampling for Robust Self-Supervised Speaker Verification

要約 自己学習学習(SSL)は、スピーカー検証(SV)のかなりの進歩をもたらしま … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information

要約 大規模なオーディオ言語モデル(LALMS)は、スピーチ、オーディオなどのマ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

Granary: Speech Recognition and Translation Dataset in 25 European Languages

要約 マルチタスクと多言語のアプローチは大規模なモデルに利益をもたらしますが、低 … 続きを読む

カテゴリー: cs.CL, eess.AS | コメントする