-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection
要約 リアルタイムかつ継続的な方向転換予測システムのデモンストレーションが行われ … 続きを読む
Learning Audio Concepts from Counterfactual Natural Language
要約 従来の音声分類は事前定義されたクラスに依存しており、自由形式のテキストから … 続きを読む
MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector
要約 音声モダリティ(音声ベース)の自然言語処理における毒性検出の研究は、特に英 … 続きを読む
Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters
要約 ゼロショット音声合成 (TTS) 方法は、自己教師あり学習 (SSL) 音 … 続きを読む
ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
要約 最大 60% が英語で公開されているインターネットの豊富なコンテンツは、英 … 続きを読む
Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement
要約 オーディオ間 (A2A) スタイル転送の問題には、ソース オーディオのコン … 続きを読む
HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks
要約 GANStrument は、ピッチ不変特徴抽出器とインスタンス調整技術で … 続きを読む
HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition
要約 感情表現にはマルチモーダルな性質があるため、会話における感情認識は困難です … 続きを読む
Masked Audio Generation using a Single Non-Autoregressive Transformer
要約 オーディオ トークンの複数のストリームに対して直接動作する、マスクされた生 … 続きを読む
Theoretical Framework for the Optimization of Microphone Array Configuration for Humanoid Robot Audition
要約 人型ロボットの重要な側面は聴覚です。 これまでの研究では、さまざまな構成の … 続きを読む