-
最近の投稿
- Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce
- Automatic Mapping of Anatomical Landmarks from Free-Text Using Large Language Models: Insights from Llama-2
- A Data-driven Contact Estimation Method for Wheeled-Biped Robots
- From Measurement Instruments to Data: Leveraging Theory-Driven Synthetic Training Data for Classifying Social Constructs
- Local transfer learning Gaussian process modeling, with applications to surrogate modeling of expensive computer simulators
-
最近のコメント
表示できるコメントはありません。 cs.AI (28200) cs.CL (21304) cs.CR (2202) cs.CV (34857) cs.LG (32946) cs.RO (16225) cs.SY (2500) eess.IV (4250) eess.SY (2494) stat.ML (4413)
「cs.SD」カテゴリーアーカイブ
Word Discovery in Visually Grounded, Self-Supervised Speech Models
要約 視覚に基づいた話し言葉の発見方法を紹介します。 HuBERT または wa … 続きを読む
Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition
要約 低リソースのアクセント音声認識は、実際のアプリケーションにおいて現在の A … 続きを読む
Align, Adapt and Inject: Sound-guided Unified Image Generation
要約 テキストガイドによる画像生成は、拡散モデルの開発により前例のない進歩を遂げ … 続きを読む
Correlation Clustering of Bird Sounds
要約 鳥の鳴き声の分類は、あらゆる音声記録を、その記録で聞こえる鳥の種類に関連付 … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
On Data Sampling Strategies for Training Neural Network Speech Separation Models
要約 音声分離は依然としてマルチスピーカー信号処理の重要な領域です。 ディープ … 続きを読む
Evaluation of Speech Representations for MOS prediction
要約 この論文では、音声品質を予測するための特徴抽出モデルを評価します。 また、 … 続きを読む
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
要約 オーディオビジュアル音声認識は、音響ノイズに対する堅牢性により多くの注目を … 続きを読む
RealImpact: A Dataset of Impact Sound Fields for Real Objects
要約 物体は、さまざまな摂動、環境条件、リスナーに対する姿勢の下で独特の音を出し … 続きを読む
Few-shot bioacoustic event detection at the DCASE 2023 challenge
要約 フューショット生体音響イベント検出では、対象クラスの少数の例のみにアクセス … 続きを読む