「cs.SD」カテゴリーアーカイブ

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

投稿日: 2025年4月7日作成者: jarxiv

要約音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボッ … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

RWKVTTS: Yet another TTS based on RWKV-7

投稿日: 2025年4月7日作成者: jarxiv

要約人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄して … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification

投稿日: 2025年4月7日作成者: jarxiv

要約本稿では、Text-To-Audio（TTA）モデルを用いて現実的なデータ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Real-time Speech Summarization for Medical Conversations

投稿日: 2025年4月7日作成者: jarxiv

要約医師と患者の会話では、医療に関連する情報を特定することが重要であり、会話要 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation

投稿日: 2025年4月7日作成者: jarxiv

要約医療分野における多言語音声翻訳（ST）は、言語の壁を越えた効率的なコミュニ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

投稿日: 2025年4月7日作成者: jarxiv

要約大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

投稿日: 2025年4月4日作成者: jarxiv

要約大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect

投稿日: 2025年4月4日作成者: jarxiv

要約チュニジアのアラビア方言の自動音声認識（ASR）システムの開発は、方言の言 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Deep learning for music generation. Four approaches and their comparative evaluation

投稿日: 2025年4月4日作成者: jarxiv

要約本稿では、音楽生成のための4つの異なる人工知能アルゴリズムを紹介し、生成さ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

AIM: Acoustic Inertial Measurement for Indoor Drone Localization and Tracking

投稿日: 2025年4月3日作成者: jarxiv

要約屋内ドローンのローカリゼーションと追跡のためのユニークな技術である音響慣性 … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

RWKVTTS: Yet another TTS based on RWKV-7

Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification

Real-time Speech Summarization for Medical Conversations

MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect

Deep learning for music generation. Four approaches and their comparative evaluation

AIM: Acoustic Inertial Measurement for Indoor Drone Localization and Tracking

最近の投稿

最近のコメント

アーカイブ

カテゴリー