cs.SD」カテゴリーアーカイブ

Survey on the Evaluation of Generative Models in Music

要約 音楽における生成システムに関する研究は、近年かなりの注目と成長を遂げていま … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD | コメントする

AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models

要約 大規模なオーディオ言語モデル(LALMS)の内部メカニズムを理解することは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントする

Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems

要約 自動スピーキング評価のための逐語的転写は、エラー分析やフィードバックなどの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions

要約 意見表現に関する自動スピーキング評価(ASA)は、ラベル付きの録音の希少性 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

要約 手がかりのスピーチ(CS)は、ハンドコーディングを通じてリップリーディング … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | コメントする

Sounding that Object: Interactive Object-Aware Image to Audio Generation

要約 複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントする

Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC

要約 教師ありまたは教師ありで事前に学習された音声基礎モデル(SFM)を用いた多 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

要約 本論文では、TalkingMachinesを紹介する。TalkingMac … 続きを読む

カテゴリー: cs.AI, cs.GR, cs.SD | コメントする

Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling

要約 自閉症スペクトラム障害(ASD)は、社会的コミュニケーション、反復行動、お … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

SpeechT: Findings of the First Mentorship in Speech Translation

要約 この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初 … 続きを読む

カテゴリー: cs.CL, cs.SD | コメントする