「eess.AS」カテゴリーアーカイブ

Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism

投稿日: 2023年12月12日作成者: jarxiv

要約逐次データのディープラーニングの最近の進歩により、人間が話すリアルなビデオ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Seamless: Multilingual Expressive and Streaming Speech Translation

投稿日: 2023年12月11日作成者: jarxiv

要約現在の大規模な自動音声翻訳システムには、人間と人間の対話と比較して、機械を … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Investigating the Design Space of Diffusion Models for Speech Enhancement

投稿日: 2023年12月8日作成者: jarxiv

要約拡散モデルは、画像生成文献において優れたパフォーマンスを示している新しいク … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

投稿日: 2023年12月7日作成者: jarxiv

要約仮想アシスタントとの対話は通常、トリガーフレーズで始まり、その後にコマン … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards small and accurate convolutional neural networks for acoustic biodiversity monitoring

投稿日: 2023年12月7日作成者: jarxiv

要約動物の鳴き声の自動分類は、生物多様性の大規模モニタリングの前提条件です。 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation

投稿日: 2023年12月7日作成者: jarxiv

要約この研究では、音素認識と音素から書記素への翻訳モデルを強化することにより、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Data is Overrated: Perceptual Metrics Can Lead Learning in the Absence of Training Data

投稿日: 2023年12月7日作成者: jarxiv

要約知覚メトリクスは伝統的に、画像や音声などの自然信号の品質を評価するために使 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live

投稿日: 2023年12月7日作成者: jarxiv

要約 Ableton Live のユーザーが音楽の説明を付けて名前を付けて MI … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

投稿日: 2023年12月7日作成者: jarxiv

要約機械学習の進歩により、自動音声認識 (ASR) を含むさまざまなテキストお … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing

投稿日: 2023年12月6日作成者: jarxiv

要約ビデオダビングは、映画やテレビ番組の元の音声をターゲット言語の音声に翻訳 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism

Seamless: Multilingual Expressive and Streaming Speech Translation

Investigating the Design Space of Diffusion Models for Speech Enhancement

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

Towards small and accurate convolutional neural networks for acoustic biodiversity monitoring

Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation

Data is Overrated: Perceptual Metrics Can Lead Learning in the Absence of Training Data

JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live

An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing

最近の投稿

最近のコメント

アーカイブ

カテゴリー