-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition
要約 命令調整された大規模言語モデル (LLM) とエンドツーエンドの自動音声認 … 続きを読む
Multimodal Modeling For Spoken Language Identification
要約 音声言語識別とは、特定の発話内の音声言語を自動的に予測するタスクを指します … 続きを読む
Controllable Speaking Styles Using a Large Language Model
要約 参照ベースの Text-to-Speech (TTS) モデルは、同じター … 続きを読む
MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation
要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む
Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping
要約 私たちは、特定の地理的位置で知覚される可能性が最も高い音を予測することを含 … 続きを読む
Sound Source Localization is All about Cross-Modal Alignment
要約 人間は、音源定位と呼ばれる、視覚的なシーンにおける音源の方向を容易に認識で … 続きを読む
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models
要約 視聴覚表現学習は、聴覚情報と視覚情報の相関関係を利用して、人間のような知覚 … 続きを読む
Watch the Speakers: A Hybrid Continuous Attribution Network for Emotion Recognition in Conversation With Emotion Disentanglement
要約 会話中の感情認識 (ERC) は、実用化の可能性が非常に高いため、自然言語 … 続きを読む
HypR: A comprehensive study for ASR hypothesis revising with a reference corpus
要約 ディープラーニングの発展に伴い、自動音声認識 (ASR) は大幅に進歩しま … 続きを読む
Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks
要約 我々は、音声認識、音声合成、テキスト生成、音声継続という 4 つのタスクを … 続きを読む