-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding
要約 最近、大規模な事前トレーニング済み言語モデルが強力な言語理解能力を実証して … 続きを読む
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge
要約 この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む
TrOMR:Transformer-Based Polyphonic Optical Music Recognition
要約 光学式音楽認識 (OMR) は音楽における重要な技術であり、長い間研究され … 続きを読む
Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model
要約 自然言語処理の研究では、トレーニングされた自己回帰言語モデルからの生成の品 … 続きを読む
Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning
要約 私たちは、650 時間以上の 19 チャンネル オーディオ、一次アンビソニ … 続きを読む
Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions
要約 私たちは、オーディオビジュアル アクション イベントの大規模なデータセット … 続きを読む
Accurate synthesis of Dysarthric Speech for ASR data augmentation
要約 構音障害は、発語筋の制御が遅く、協調性を欠いていることによる音声明瞭度の低 … 続きを読む
End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations
要約 従来のキーワード検索システムは自動音声認識 (ASR) 出力で動作するため … 続きを読む
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization
要約 私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む