eess.AS」カテゴリーアーカイブ

Improved Cross-Lingual Transfer Learning For Automatic Speech Translation

要約 多言語の音声からテキストへの翻訳に関する研究が話題になっています。 複数の … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS, eess.SP | Improved Cross-Lingual Transfer Learning For Automatic Speech Translation はコメントを受け付けていません

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model

要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Iterative autoregression: a novel trick to improve your low-latency speech enhancement model はコメントを受け付けていません

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]

要約 ユーザーがビデオ データセットに対してドメイン固有のモデルを構築できるよう … 続きを読む

カテゴリー: cs.CV, cs.DB, cs.SD, eess.AS | VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report] はコメントを受け付けていません

UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures

要約 複数のスピーカーが同時に存在する残響状態では、各マイクは異なる場所にある複 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures はコメントを受け付けていません

Text-to-Speech Pipeline for Swiss German — A comparison

要約 この研究では、さまざまな Text-to-Speech (TTS) モデル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Text-to-Speech Pipeline for Swiss German — A comparison はコメントを受け付けていません

Simple yet Effective Code-Switching Language Identification with Multitask Pre-Training and Transfer Learning

要約 コードスイッチング (コードミキシングとも呼ばれる) は、カジュアルな環境 … 続きを読む

カテゴリー: cs.CL, eess.AS | Simple yet Effective Code-Switching Language Identification with Multitask Pre-Training and Transfer Learning はコメントを受け付けていません

MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets

要約 この論文では、トレーニングターゲットがどのように取得されるかということから … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets はコメントを受け付けていません

Attention-Based Methods For Audio Question Answering

要約 音声質問応答 (AQA) は、システムに音声および自然言語の質問が提供され … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Attention-Based Methods For Audio Question Answering はコメントを受け付けていません

ViLaS: Integrating Vision and Language into Automatic Speech Recognition

要約 追加のマルチモーダル情報を使用して自動音声認識 (ASR) のパフォーマン … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | ViLaS: Integrating Vision and Language into Automatic Speech Recognition はコメントを受け付けていません

Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models

要約 主に、暗黙的なセマンティック モデリングにより、自己教師あり学習 (SSL … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models はコメントを受け付けていません