-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings
要約 音声および言語テクノロジにおける最近の大幅な改善は、生の言語データに対する … 続きを読む
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む
Automatic Album Sequencing
要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む
DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
要約 この文書では、私たちの知る限り、音声制御デバイス向けの $\Delta$R … 続きを読む
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む
DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music
要約 音楽 AI モデルの表現を定量化し、人間の行動と一致させることは、MIR … 続きを読む
Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models
要約 本稿では、大規模かつ多様なオーディオエフェクトデータを生成するための合成デ … 続きを読む
Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network
要約 音声認識と話者識別は、セキュリティやパーソナル アシスタントのアプリケーシ … 続きを読む