-
最近の投稿
- Agent-Based Emulation for Deploying Robot Swarm Behaviors
- Automated Planning Domain Inference for Task and Motion Planning
- Tactile Displays Driven by Projected Light
- Caging in Time: A Framework for Robust Object Manipulation under Uncertainties and Limited Robot Perception
- Implicit Contact Diffuser: Sequential Contact Reasoning with Latent Point Cloud Diffusion
-
最近のコメント
表示できるコメントはありません。 cs.AI (28464) cs.CL (21516) cs.CR (2224) cs.CV (35088) cs.LG (33220) cs.RO (16420) cs.SY (2528) eess.IV (4274) eess.SY (2522) stat.ML (4457)
「eess.AS」カテゴリーアーカイブ
Egocentric Audio-Visual Noise Suppression
要約 【タイトル】エゴセントリックなオーディオ・ビジュアルノイズサプレッション … 続きを読む
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research
要約 タイトル: 音質の影響が自然なインファント指向性音声研究における長時間録音 … 続きを読む
Considerations for Ethical Speech Recognition Datasets
要約 タイトル:公正な音声認識データセットに関する考慮事項 要約: -音声AI技 … 続きを読む
M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis
要約 【タイトル】 M2-CTTS: 多層多様な言語・音声モダリティに対応した会 … 続きを読む
Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming
要約 タイトル:「クロスモーダルニューラルモデル再プログラミングによる低リソース … 続きを読む
AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation
要約 タイトル: AV-SAM: Segment Anything Model … 続きを読む
CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds
要約 タイトル:CryCeleb:乳児の泣き声に基づく話者認証データセット 要約 … 続きを読む
AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis
要約 タイトル:AQ-GT:時間的に整列し量子化されたGRU-Transform … 続きを読む
Going In Style: Audio Backdoors Through Stylistic Transformations
要約 タイトル:Going In Style: Audio Backdoors … 続きを読む
Lessons Learned in ATCO2: 5000 hours of Air Traffic Control Communications for Robust Automatic Speech Recognition and Understanding
要約 タイトル:ATCO2における学習成果:堅牢な自動音声認識と理解のための50 … 続きを読む