-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt
要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む
NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics
要約 テキストと音声で促される大規模言語モデル (LLM) は、スピーチ、音楽、 … 続きを読む
Tell What You Hear From What You See — Video to Audio Generation Through Text
要約 ビジュアル シーンとオーディオ シーンのコンテンツは多面的であり、ビデオと … 続きを読む
Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages
要約 この論文では、OpenAI の Whisper モデルを使用して、低リソー … 続きを読む
Pre-Finetuning for Few-Shot Emotional Speech Recognition
要約 音声モデルは、多くの分類タスクに対して個々の話者を過剰適合させることが長い … 続きを読む
Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking
要約 咳や呼吸音などの呼吸音には、幅広い医療用途を予測する力がありますが、現時点 … 続きを読む
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む
Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward
要約 最近の研究では、音声基盤エンコーダと大規模言語モデル (LLM) の間の線 … 続きを読む
Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT
要約 スピーチは、人間として自分自身を表現する最も自然な方法です。 感情自体の定 … 続きを読む
Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks
要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む