-
最近の投稿
- Lasso Gripper: A String Shooting-Retracting Mechanism for Shape-Adaptive Grasping
- TACS-Graphs: Traversability-Aware Consistent Scene Graphs for Ground Robot Indoor Localization and Mapping
- Non-Overlap-Aware Egocentric Pose Estimation for Collaborative Perception in Connected Autonomy
- Hard Contacts with Soft Gradients: Refining Differentiable Simulators for Learning and Control
- AMPLIFY: Actionless Motion Priors for Robot Learning from Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (39812) cs.CL (30135) cs.CV (45122) cs.HC (3045) cs.LG (44743) cs.RO (23829) cs.SY (3627) eess.IV (5166) eess.SY (3619) stat.ML (5821)
「eess.AS」カテゴリーアーカイブ
Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition
要約 トランスデューサー ニューラル ネットワークは、ストリーミング自動音声認識 … 続きを読む
Learning Spatially-Aware Language and Audio Embeddings
要約 人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む
WavChat: A Survey of Spoken Dialogue Models
要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む
The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings
要約 音声および言語テクノロジにおける最近の大幅な改善は、生の言語データに対する … 続きを読む
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む
Automatic Album Sequencing
要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む
DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
要約 この文書では、私たちの知る限り、音声制御デバイス向けの $\Delta$R … 続きを読む
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む
DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music
要約 音楽 AI モデルの表現を定量化し、人間の行動と一致させることは、MIR … 続きを読む