cs.SD」カテゴリーアーカイブ

Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization はコメントを受け付けていません

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation はコメントを受け付けていません

NEUROSEC: FPGA-Based Neuromorphic Audio Security

要約 人間の脳の複雑さと機能からインスピレーションを得たニューロモーフィック シ … 続きを読む

カテゴリー: cs.CR, cs.ET, cs.LG, cs.NE, cs.SD, eess.AS | NEUROSEC: FPGA-Based Neuromorphic Audio Security はコメントを受け付けていません

Resource-constrained stereo singing voice cancellation

要約 我々は、音楽ソース分離のサブタスクであるステレオ歌声キャンセルの問題を研究 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Resource-constrained stereo singing voice cancellation はコメントを受け付けていません

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

要約 このペーパーでは、大規模言語モデル (LLM) を利用して話者ダイアライゼ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | DiarizationLM: Speaker Diarization Post-Processing with Large Language Models はコメントを受け付けていません

Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax

要約 多言語モデリングがいくつか進歩したとしても、入力言語を知らずに単一のニュー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax はコメントを受け付けていません

Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers

要約 この研究では、中間層を使用した BERT 教師モデルから自動音声認識 (A … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers はコメントを受け付けていません

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

要約 我々は、初期ノイズ潜在を最適化することで推論時間に事前トレーニングされたテ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | DITTO: Diffusion Inference-Time T-Optimization for Music Generation はコメントを受け付けていません

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling

要約 この論文の目標は、文字を認識した字幕を自動生成することです。 ビデオと最小 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling はコメントを受け付けていません

Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech

要約 Grapheme-to-Phoneme (G2P) は、最新の高品質 Te … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech はコメントを受け付けていません