-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.SD」カテゴリーアーカイブ
Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む
Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む
NEUROSEC: FPGA-Based Neuromorphic Audio Security
要約 人間の脳の複雑さと機能からインスピレーションを得たニューロモーフィック シ … 続きを読む
Resource-constrained stereo singing voice cancellation
要約 我々は、音楽ソース分離のサブタスクであるステレオ歌声キャンセルの問題を研究 … 続きを読む
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models
要約 このペーパーでは、大規模言語モデル (LLM) を利用して話者ダイアライゼ … 続きを読む
Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax
要約 多言語モデリングがいくつか進歩したとしても、入力言語を知らずに単一のニュー … 続きを読む
Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers
要約 この研究では、中間層を使用した BERT 教師モデルから自動音声認識 (A … 続きを読む
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
要約 我々は、初期ノイズ潜在を最適化することで推論時間に事前トレーニングされたテ … 続きを読む
Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling
要約 この論文の目標は、文字を認識した字幕を自動生成することです。 ビデオと最小 … 続きを読む
Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech
要約 Grapheme-to-Phoneme (G2P) は、最新の高品質 Te … 続きを読む