-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.SD」カテゴリーアーカイブ
Diffusion Models for Audio Restoration
要約 オーディオ再生デバイスの発展と高速データ伝送に伴い、エンターテインメントと … 続きを読む
Electroencephalogram-based Multi-class Decoding of Attended Speakers’ Direction with Audio Spatial Spectrum
要約 聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt
要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む
NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics
要約 テキストと音声で促される大規模言語モデル (LLM) は、スピーチ、音楽、 … 続きを読む
Tell What You Hear From What You See — Video to Audio Generation Through Text
要約 ビジュアル シーンとオーディオ シーンのコンテンツは多面的であり、ビデオと … 続きを読む
Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages
要約 この論文では、OpenAI の Whisper モデルを使用して、低リソー … 続きを読む
Pre-Finetuning for Few-Shot Emotional Speech Recognition
要約 音声モデルは、多くの分類タスクに対して個々の話者を過剰適合させることが長い … 続きを読む
Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking
要約 咳や呼吸音などの呼吸音には、幅広い医療用途を予測する力がありますが、現時点 … 続きを読む
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む