「cs.SD」カテゴリーアーカイブ

Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking

投稿日: 2023年12月5日作成者: jarxiv

要約対話状態の追跡は、タスク指向の対話システムにおいて情報を抽出する上で重要な … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

H_eval: A new hybrid evaluation metric for automatic speech recognition tasks

投稿日: 2023年12月4日作成者: jarxiv

要約自動音声認識(ASR)システムの評価指標としての単語誤り率(WER)の欠点 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation

投稿日: 2023年12月1日作成者: jarxiv

要約同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

投稿日: 2023年12月1日作成者: jarxiv

要約 CoDi-2 は、複雑なマルチモーダルのインターリーブ命令に従い、コンテキ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data

投稿日: 2023年11月30日作成者: jarxiv

要約句読点や大文字を含む場合と含まない場合の両方の文字起こしを生成する、統合リ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

投稿日: 2023年11月30日作成者: jarxiv

要約ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 | コメントを受け付けていません

StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

投稿日: 2023年11月29日作成者: jarxiv

要約我々は、音声に現れる話し方の自然言語記述を生成する手法、StyleCap … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models

投稿日: 2023年11月28日作成者: jarxiv

要約自動音声認識 (ASR) モデルは、デバイスに展開する前に、特定のハードウ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

CheapNET: Improving Light-weight speech enhancement network by projected loss function

投稿日: 2023年11月28日作成者: jarxiv

要約ノイズ抑制とエコーキャンセルは音声強調において重要であり、スマートデバ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

SER_AMPEL: A multi-source dataset for SER of Italian older adults

投稿日: 2023年11月27日作成者: jarxiv

要約この論文では、音声感情認識 (SER) 用のマルチソースデータセットであ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking

H_eval: A new hybrid evaluation metric for automatic speech recognition tasks

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models

CheapNET: Improving Light-weight speech enhancement network by projected loss function

SER_AMPEL: A multi-source dataset for SER of Italian older adults

最近の投稿

最近のコメント

アーカイブ

カテゴリー