cs.SD」カテゴリーアーカイブ

Sounding that Object: Interactive Object-Aware Image to Audio Generation

要約 複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Sounding that Object: Interactive Object-Aware Image to Audio Generation はコメントを受け付けていません

Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC

要約 教師ありまたは教師ありで事前に学習された音声基礎モデル(SFM)を用いた多 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC はコメントを受け付けていません

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

要約 本論文では、TalkingMachinesを紹介する。TalkingMac … 続きを読む

カテゴリー: cs.AI, cs.GR, cs.SD | TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models はコメントを受け付けていません

Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling

要約 自閉症スペクトラム障害(ASD)は、社会的コミュニケーション、反復行動、お … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling はコメントを受け付けていません

SpeechT: Findings of the First Mentorship in Speech Translation

要約 この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初 … 続きを読む

カテゴリー: cs.CL, cs.SD | SpeechT: Findings of the First Mentorship in Speech Translation はコメントを受け付けていません

Bemba Speech Translation: Exploring a Low-Resource African Language

要約 このホワイトペーパーでは、スポークン言語翻訳に関する国際会議(IWSLT … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Bemba Speech Translation: Exploring a Low-Resource African Language はコメントを受け付けていません

Efficient Speech Translation through Model Compression and Knowledge Distillation

要約 音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Efficient Speech Translation through Model Compression and Knowledge Distillation はコメントを受け付けていません

ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation

要約 テキストまたはビデオで条件付けられた現在のオーディオ生成は、オーディオをテ … 続きを読む

カテゴリー: cs.CV, cs.SD | ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation はコメントを受け付けていません

Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification

要約 アラビア語の方言識別(ADI)システムは、アラビア語の品種のための包括的な … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification はコメントを受け付けていません

Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach

要約 サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されてい … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach はコメントを受け付けていません