「cs.SD」カテゴリーアーカイブ

Benchmarking Machine Learning Methods for Distributed Acoustic Sensing

投稿日: 2025年3月27日作成者: jarxiv

要約分散音響センシング（DAS）テクノロジーは、光ファイバーに沿った微小摂動の … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

投稿日: 2025年3月27日作成者: jarxiv

要約このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms

投稿日: 2025年3月26日作成者: jarxiv

要約このペーパーでは、オーディオファイルのMELスペクトログラム表現を介して音 … 続きを読む →

カテゴリー: cs.AI, cs.SD | コメントを受け付けていません

Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes

投稿日: 2025年3月25日作成者: jarxiv

要約視覚シーン内の音声言語と非スピーチの両方の音の両方を同時に接地できる統合モ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space

投稿日: 2025年3月24日作成者: jarxiv

要約オーディオとビジュアルモダリティは、ビデオの2つの主要な接触チャネルであり … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

投稿日: 2025年3月24日作成者: jarxiv

要約音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Structured-Noise Masked Modeling for Video, Audio and Beyond

投稿日: 2025年3月21日作成者: jarxiv

要約マスクされたモデリングは強力な自己監視学習フレームワークとして浮上していま … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD | コメントを受け付けていません

UniSync: A Unified Framework for Audio-Visual Synchronization

投稿日: 2025年3月21日作成者: jarxiv

要約スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces

投稿日: 2025年3月20日作成者: jarxiv

要約自動音声認識（ASR）の進歩にもかかわらず、転写エラーは持続し、手動修正が … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

投稿日: 2025年3月20日作成者: jarxiv

要約大規模な言語モデル（LLM）は最近、テキストだけでなく、音声やオーディオな … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Benchmarking Machine Learning Methods for Distributed Acoustic Sensing

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms

Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes

United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

Structured-Noise Masked Modeling for Video, Audio and Beyond

UniSync: A Unified Framework for Audio-Visual Synchronization

Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

最近の投稿

最近のコメント

アーカイブ

カテゴリー