eess.AS」カテゴリーアーカイブ

RNN-Transducer-based Losses for Speech Recognition on Noisy Targets

要約 騒々しい転写産物に関するトレーニング音声認識システムは、データセットが膨大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | RNN-Transducer-based Losses for Speech Recognition on Noisy Targets はコメントを受け付けていません

Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks

要約 このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks はコメントを受け付けていません

Leveraging Label Potential for Enhanced Multimodal Emotion Recognition

要約 マルチモーダル感情認識(MER)は、感情状態を正確に予測するために、さまざ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Leveraging Label Potential for Enhanced Multimodal Emotion Recognition はコメントを受け付けていません

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

要約 音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボッ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | An Efficient GPU-based Implementation for Noise Robust Sound Source Localization はコメントを受け付けていません

RWKVTTS: Yet another TTS based on RWKV-7

要約 人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄して … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | RWKVTTS: Yet another TTS based on RWKV-7 はコメントを受け付けていません

Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification

要約 本稿では、Text-To-Audio(TTA)モデルを用いて現実的なデータ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification はコメントを受け付けていません

Real-time Speech Summarization for Medical Conversations

要約 医師と患者の会話では、医療に関連する情報を特定することが重要であり、会話要 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Real-time Speech Summarization for Medical Conversations はコメントを受け付けていません

VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain

要約 プライバシーの制約から、医療分野の音声認識データセットは公開されていない。 … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain はコメントを受け付けていません

MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation

要約 医療分野における多言語音声翻訳(ST)は、言語の壁を越えた効率的なコミュニ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation はコメントを受け付けていません

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

要約 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant はコメントを受け付けていません