「cs.SD」カテゴリーアーカイブ

Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

投稿日: 2024年1月24日作成者: jarxiv

要約話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

投稿日: 2024年1月24日作成者: jarxiv

要約拡張現実 (AR) デバイスは、著名なモバイルインタラクションプラット … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

NEUROSEC: FPGA-Based Neuromorphic Audio Security

投稿日: 2024年1月23日作成者: jarxiv

要約人間の脳の複雑さと機能からインスピレーションを得たニューロモーフィックシ … 続きを読む →

カテゴリー: cs.CR, cs.ET, cs.LG, cs.NE, cs.SD, eess.AS | コメントを受け付けていません

Resource-constrained stereo singing voice cancellation

投稿日: 2024年1月23日作成者: jarxiv

要約我々は、音楽ソース分離のサブタスクであるステレオ歌声キャンセルの問題を研究 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

投稿日: 2024年1月23日作成者: jarxiv

要約このペーパーでは、大規模言語モデル (LLM) を利用して話者ダイアライゼ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax

投稿日: 2024年1月23日作成者: jarxiv

要約多言語モデリングがいくつか進歩したとしても、入力言語を知らずに単一のニュー … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers

投稿日: 2024年1月23日作成者: jarxiv

要約この研究では、中間層を使用した BERT 教師モデルから自動音声認識 (A … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

投稿日: 2024年1月23日作成者: jarxiv

要約我々は、初期ノイズ潜在を最適化することで推論時間に事前トレーニングされたテ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling

投稿日: 2024年1月23日作成者: jarxiv

要約この論文の目標は、文字を認識した字幕を自動生成することです。ビデオと最小 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech

投稿日: 2024年1月22日作成者: jarxiv

要約 Grapheme-to-Phoneme (G2P) は、最新の高品質 Te … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

NEUROSEC: FPGA-Based Neuromorphic Audio Security

Resource-constrained stereo singing voice cancellation

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax

Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling

Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech

最近の投稿

最近のコメント

アーカイブ

カテゴリー