-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Joint Audio and Speech Understanding
要約 人間は、音声と非音声の両方を含む音声信号に囲まれています。 音声イベントと … 続きを読む
Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event Parser
要約 視聴覚学習は、マルチモーダル機械学習の主要な柱であり、コミュニティではモダ … 続きを読む
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition
要約 視聴覚音声には、自動音声認識 (ASR) と視覚音声認識 (VSR) の両 … 続きを読む
Can Generative Large Language Models Perform ASR Error Correction?
要約 ASR エラー修正は、音声認識システムの出力を後処理するための興味深いオプ … 続きを読む
Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization
要約 固有名詞や用語などの多様なレアフレーズや語彙外 (OOV) フレーズに焦点 … 続きを読む
A Large-scale Dataset for Audio-Language Representation Learning
要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む
Audio-Visual Speaker Verification via Joint Cross-Attention
要約 話者検証は音声信号を使用して広く検討されており、ディープ モデルを使用する … 続きを読む
Joint Prediction and Denoising for Large-scale Multilingual Self-supervised Learning
要約 多言語自己教師あり学習 (SSL) は、多くの言語を処理するために必要な費 … 続きを読む
Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription
要約 近年、音楽転写に関する研究は、主にアーキテクチャ設計と楽器固有のデータ取得 … 続きを読む
Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition
要約 音声認識出力スコアリングのための低ランク適応 (LoRA) に基づく神経言 … 続きを読む