-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement
要約 私たちは、類似しているがわずかに異なるオーディオ クリップの入力ペア間の意 … 続きを読む
Audio Generation with Multiple Conditional Diffusion Model
要約 テキストベースのオーディオ生成モデルには、オーディオ内のすべての情報を網羅 … 続きを読む
Convoifilter: A case study of doing cocktail party speech recognition
要約 このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning
要約 テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む
Furnishing Sound Event Detection with Language Model Abilities
要約 最近、言語モデル (LM) の機能が視覚的クロスモダリティにおいてますます … 続きを読む
TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition
要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む
Implicit Self-supervised Language Representation for Spoken Language Diarization
要約 コード交換 (CS) シナリオでは、事前所有システムとして音声言語ダイアラ … 続きを読む
LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices
要約 LibriWASN は、LibriCSS 会議認識データ セットに厳密に準 … 続きを読む
Federated learning for secure development of AI models for Parkinson’s disease detection using speech from different languages
要約 パーキンソン病 (PD) は、人の言語に影響を与える神経疾患です。 自動 … 続きを読む
Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation
要約 私たちが知覚する画像と音は、頭を回転させると、微妙ですが幾何学的に一貫した … 続きを読む