cs.SD」カテゴリーアーカイブ

Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking

要約 対話状態の追跡は、タスク指向の対話システムにおいて情報を抽出する上で重要な … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking はコメントを受け付けていません

H_eval: A new hybrid evaluation metric for automatic speech recognition tasks

要約 自動音声認識(ASR)システムの評価指標としての単語誤り率(WER)の欠点 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | H_eval: A new hybrid evaluation metric for automatic speech recognition tasks はコメントを受け付けていません

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation

要約 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Unified Segment-to-Segment Framework for Simultaneous Sequence Generation はコメントを受け付けていません

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

要約 CoDi-2 は、複雑なマルチモーダルのインターリーブ命令に従い、コンテキ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation はコメントを受け付けていません

End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data

要約 句読点や大文字を含む場合と含まない場合の両方の文字起こしを生成する、統合リ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data はコメントを受け付けていません

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

要約 ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 | Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes はコメントを受け付けていません

StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

要約 我々は、音声に現れる話し方の自然言語記述を生成する手法、StyleCap … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models はコメントを受け付けていません

TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models

要約 自動音声認識 (ASR) モデルは、デバイスに展開する前に、特定のハードウ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models はコメントを受け付けていません

CheapNET: Improving Light-weight speech enhancement network by projected loss function

要約 ノイズ抑制とエコー キャンセルは音声強調において重要であり、スマート デバ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | CheapNET: Improving Light-weight speech enhancement network by projected loss function はコメントを受け付けていません

SER_AMPEL: A multi-source dataset for SER of Italian older adults

要約 この論文では、音声感情認識 (SER) 用のマルチソース データセットであ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SER_AMPEL: A multi-source dataset for SER of Italian older adults はコメントを受け付けていません