-
最近の投稿
- RT-cache: Efficient Robot Trajectory Retrieval System
- Reach-Avoid-Stabilize Using Admissible Control Sets
- Solving Reach- and Stabilize-Avoid Problems Using Discounted Reachability
- A Novel 6-axis Force/Torque Sensor Using Inductance Sensors
- Deployable and Generalizable Motion Prediction: Taxonomy, Open Challenges and Future Directions
-
最近のコメント
表示できるコメントはありません。 cs.AI (38110) cs.CL (28797) cs.CV (43686) cs.HC (2911) cs.LG (43032) cs.RO (22672) cs.SY (3480) eess.IV (5065) eess.SY (3472) stat.ML (5604)
「cs.SD」カテゴリーアーカイブ
WavChat: A Survey of Spoken Dialogue Models
要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む
The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings
要約 音声および言語テクノロジにおける最近の大幅な改善は、生の言語データに対する … 続きを読む
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む
Automatic Album Sequencing
要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む
DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
要約 この文書では、私たちの知る限り、音声制御デバイス向けの $\Delta$R … 続きを読む
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む
DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music
要約 音楽 AI モデルの表現を定量化し、人間の行動と一致させることは、MIR … 続きを読む
Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models
要約 本稿では、大規模かつ多様なオーディオエフェクトデータを生成するための合成デ … 続きを読む
Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network
要約 音声認識と話者識別は、セキュリティやパーソナル アシスタントのアプリケーシ … 続きを読む