-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
LanSER: Language-Model Supported Speech Emotion Recognition
要約 音声感情認識 (SER) モデルは通常、トレーニングにコストのかかる人間が … 続きを読む
Multiple Representation Transfer from Large Language Models to End-to-End ASR Systems
要約 大規模言語モデル (LLM) の知識の転送は、言語知識をエンドツーエンドの … 続きを読む
Cross-Utterance Conditioned VAE for Speech Generation
要約 ニューラル ネットワークを活用した音声合成システムは、マルチメディア制作に … 続きを読む
Adoption of AI Technology in the Music Mixing Workflow: An Investigation
要約 音楽業界における人工知能 (AI) テクノロジーの統合により、音楽の作曲、 … 続きを読む
The Role of Communication and Reference Songs in the Mixing Process: Insights from Professional Mix Engineers
要約 効果的な音楽ミキシングには技術的かつ創造的な繊細さが必要ですが、クライアン … 続きを読む
A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation
要約 映画的なオーディオ ソースの分離は、対話の幹、音楽の幹、およびそれらの混合 … 続きを読む
RoDia: A New Dataset for Romanian Dialect Identification from Speech
要約 方言の識別は、音声処理および言語テクノロジにおいて重要なタスクであり、音声 … 続きを読む
Zero-Shot Audio Captioning via Audibility Guidance
要約 音声キャプションのタスクは、画像やビデオのキャプションなどのタスクと本質的 … 続きを読む
ImageBind-LLM: Multi-modality Instruction Tuning
要約 ImageBind-LLM は、ImageBind を介した大規模言語モデ … 続きを読む