「eess.AS」カテゴリーアーカイブ

Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks

投稿日: 2025年4月9日作成者: jarxiv

要約このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Leveraging Label Potential for Enhanced Multimodal Emotion Recognition

投稿日: 2025年4月8日作成者: jarxiv

要約マルチモーダル感情認識（MER）は、感情状態を正確に予測するために、さまざ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

投稿日: 2025年4月7日作成者: jarxiv

要約音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボッ … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

RWKVTTS: Yet another TTS based on RWKV-7

投稿日: 2025年4月7日作成者: jarxiv

要約人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄して … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification

投稿日: 2025年4月7日作成者: jarxiv

要約本稿では、Text-To-Audio（TTA）モデルを用いて現実的なデータ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Real-time Speech Summarization for Medical Conversations

投稿日: 2025年4月7日作成者: jarxiv

要約医師と患者の会話では、医療に関連する情報を特定することが重要であり、会話要 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain

投稿日: 2025年4月7日作成者: jarxiv

要約プライバシーの制約から、医療分野の音声認識データセットは公開されていない。 … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation

投稿日: 2025年4月7日作成者: jarxiv

要約医療分野における多言語音声翻訳（ST）は、言語の壁を越えた効率的なコミュニ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

投稿日: 2025年4月7日作成者: jarxiv

要約大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

投稿日: 2025年4月4日作成者: jarxiv

要約大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks

Leveraging Label Potential for Enhanced Multimodal Emotion Recognition

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

RWKVTTS: Yet another TTS based on RWKV-7

Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification

Real-time Speech Summarization for Medical Conversations

VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain

MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

最近の投稿

最近のコメント

アーカイブ

カテゴリー