eess.AS」カテゴリーアーカイブ

United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space

要約 オーディオとビジュアルモダリティは、ビデオの2つの主要な接触チャネルであり … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space はコメントを受け付けていません

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

要約 音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation はコメントを受け付けていません

emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography

要約 表面筋電図(SEMG)は、個々の脊椎ニューロンと豊かさを検出するのに十分な … 続きを読む

カテゴリー: cs.HC, cs.LG, eess.AS, H.1.2 | emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography はコメントを受け付けていません

UniSync: A Unified Framework for Audio-Visual Synchronization

要約 スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | UniSync: A Unified Framework for Audio-Visual Synchronization はコメントを受け付けていません

Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces

要約 自動音声認識(ASR)の進歩にもかかわらず、転写エラーは持続し、手動修正が … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS, I.2.7 | Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces はコメントを受け付けていません

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

要約 大規模な言語モデル(LLM)は最近、テキストだけでなく、音声やオーディオな … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context はコメントを受け付けていません

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

要約 最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering はコメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MoonCast: High-Quality Zero-Shot Podcast Generation はコメントを受け付けていません

AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation

要約 エンドツーエンドの音声翻訳では、エンコーダーによって学んだ音響表現は、通常 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation はコメントを受け付けていません

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control

要約 スタイル転送とスタイルコントロールを備えたゼロショット歌声合成(SVS)は … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control はコメントを受け付けていません