-
最近の投稿
- MCRL4OR: Multimodal Contrastive Representation Learning for Off-Road Environmental Perception
- CSAOT: Cooperative Multi-Agent System for Active Object Tracking
- Integrating Persian Lip Reading in Surena-V Humanoid Robot for Human-Robot Interaction
- The Perceived Danger (PD) Scale: Development and Validation
- Design and Implementation of an Efficient Onboard Computer System for CanSat Atmosphere Monitoring
-
最近のコメント
表示できるコメントはありません。 cs.AI (32726) cs.CL (24738) cs.CR (2529) cs.CV (38903) cs.LG (37605) cs.RO (19038) cs.SY (2911) eess.IV (4662) eess.SY (2905) stat.ML (4954)
「cs.SD」カテゴリーアーカイブ
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む
DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music
要約 音楽 AI モデルの表現を定量化し、人間の行動と一致させることは、MIR … 続きを読む
Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models
要約 本稿では、大規模かつ多様なオーディオエフェクトデータを生成するための合成デ … 続きを読む
Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network
要約 音声認識と話者識別は、セキュリティやパーソナル アシスタントのアプリケーシ … 続きを読む
Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM
要約 大規模言語モデル (LLM) の急速な発展により、膨大なインテリジェントな … 続きを読む
mHuBERT-147: A Compact Multilingual HuBERT Model
要約 我々は、90,000 時間のクリーンなオープンライセンス データでトレーニ … 続きを読む
HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset
要約 この寄稿では、イメージ ソース メソッドを使用して作成された 7 次アンビ … 続きを読む
Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN
要約 この論文では、診療所で低コストのシステムを使用して、心臓の異常を高精度かつ … 続きを読む
Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM
要約 テキスト読み上げ (TTS) モデルは、テキストのみのコーパスを使用して自 … 続きを読む