-
最近の投稿
- Design, Integration, and Evaluation of a Dual-Arm Robotic System for High Throughput Tissue Sampling from Potato Tubers
- Uncertainty-aware Latent Safety Filters for Avoiding Out-of-Distribution Failures
- Reconfigurable legged metamachines that run on autonomous modular legs
- Improved Approximation of Sensor Network Performance for Seabed Acoustic Sensors
- HMCF: A Human-in-the-loop Multi-Robot Collaboration Framework Based on Large Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (37540) cs.CL (28390) cs.CV (43189) cs.HC (2869) cs.LG (42477) cs.RO (22278) cs.SY (3418) eess.IV (5019) eess.SY (3410) stat.ML (5541)
「eess.AS」カテゴリーアーカイブ
Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
要約 最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げ … 続きを読む
AudioX: Diffusion Transformer for Anything-to-Audio Generation
要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む
VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation
要約 音声大規模な言語モデル(LLM)は、音声処理における顕著な研究の焦点として … 続きを読む
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications
要約 このペーパーでは、Swissドイツ語をケーススタディとして使用して、文レベ … 続きを読む
Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis
要約 このホワイトペーパーでは、オーディオデータとビデオデータの両方を活用して、 … 続きを読む
MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders
要約 大規模な言語モデル(LLMS)の急速な進歩は、自然言語処理能力を大幅に強化 … 続きを読む
Testing LLMs’ Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT
要約 この研究では、エラーの類型に基づいてMT出力に注釈を付ける際に、大規模な言 … 続きを読む
Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion
要約 画像合成に大きな成功を示した後、生成敵対的ネットワーク(GAN)モデルは同 … 続きを読む
EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting
要約 人間のスピーチは、情報の単なる転送を超えています。 それは感情の深いやり取 … 続きを読む
EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting
要約 人間のスピーチは、情報の単なる転送を超えています。 それは感情の深いやり取 … 続きを読む