-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific Input Representation and Diffusion Outpainting
要約 演奏用のギターサウンドを合成することは、同時発音数が多く表現の多様性が大き … 続きを読む
Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models
要約 ニューラル ネットワークは、非侵入的な音声明瞭度の予測に使用されて成功して … 続きを読む
Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study
要約 大規模モデルの時代では、デコードの自己回帰的な性質により、レイテンシーが重 … 続きを読む
Multilingual acoustic word embeddings for zero-resource languages
要約 この研究は、ラベル付きデータのないゼロリソース言語向けの音声アプリケーショ … 続きを読む
Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む
Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む
NEUROSEC: FPGA-Based Neuromorphic Audio Security
要約 人間の脳の複雑さと機能からインスピレーションを得たニューロモーフィック シ … 続きを読む
Resource-constrained stereo singing voice cancellation
要約 我々は、音楽ソース分離のサブタスクであるステレオ歌声キャンセルの問題を研究 … 続きを読む
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models
要約 このペーパーでは、大規模言語モデル (LLM) を利用して話者ダイアライゼ … 続きを読む
Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax
要約 多言語モデリングがいくつか進歩したとしても、入力言語を知らずに単一のニュー … 続きを読む