eess.AS」カテゴリーアーカイブ

Egocentric Audio-Visual Noise Suppression

要約 【タイトル】エゴセントリックなオーディオ・ビジュアルノイズサプレッション … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Egocentric Audio-Visual Noise Suppression はコメントを受け付けていません

Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research

要約 タイトル: 音質の影響が自然なインファント指向性音声研究における長時間録音 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research はコメントを受け付けていません

Considerations for Ethical Speech Recognition Datasets

要約 タイトル:公正な音声認識データセットに関する考慮事項 要約: -音声AI技 … 続きを読む

カテゴリー: cs.CL, cs.CY, cs.SD, eess.AS | Considerations for Ethical Speech Recognition Datasets はコメントを受け付けていません

M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis

要約 【タイトル】 M2-CTTS: 多層多様な言語・音声モダリティに対応した会 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis はコメントを受け付けていません

Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming

要約 タイトル:「クロスモーダルニューラルモデル再プログラミングによる低リソース … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.NE, cs.SD, eess.AS | Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming はコメントを受け付けていません

AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation

要約 タイトル: AV-SAM: Segment Anything Model … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation はコメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

要約 タイトル:CryCeleb:乳児の泣き声に基づく話者認証データセット 要約 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds はコメントを受け付けていません

AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis

要約 タイトル:AQ-GT:時間的に整列し量子化されたGRU-Transform … 続きを読む

カテゴリー: cs.GR, cs.HC, cs.LG, cs.SD, eess.AS | AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis はコメントを受け付けていません

Going In Style: Audio Backdoors Through Stylistic Transformations

要約 タイトル:Going In Style: Audio Backdoors … 続きを読む

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | Going In Style: Audio Backdoors Through Stylistic Transformations はコメントを受け付けていません

Lessons Learned in ATCO2: 5000 hours of Air Traffic Control Communications for Robust Automatic Speech Recognition and Understanding

要約 タイトル:ATCO2における学習成果:堅牢な自動音声認識と理解のための50 … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Lessons Learned in ATCO2: 5000 hours of Air Traffic Control Communications for Robust Automatic Speech Recognition and Understanding はコメントを受け付けていません