eess.AS」カテゴリーアーカイブ

Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios

要約 音声による同時ジェスチャー生成は、人間とコンピュータのコミュニケーション、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.SD, eess.AS | Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios はコメントを受け付けていません

Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?

要約 強勢、イントネーション、リズムなどの特徴を含む、話し言葉の韻律は、基礎とな … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody? はコメントを受け付けていません

DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models

要約 音声言語モデル (SLM) は、テキストベースのデコーダのみの言語モデルの … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models はコメントを受け付けていません

Aligning Audio-Visual Joint Representations with an Agentic Workflow

要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Aligning Audio-Visual Joint Representations with an Agentic Workflow はコメントを受け付けていません

Non-Invasive Suicide Risk Prediction Through Speech Analysis

要約 救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2 | Non-Invasive Suicide Risk Prediction Through Speech Analysis はコメントを受け付けていません

Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach

要約 音声言語モデリングの最近の進歩により、音声から直接言語を学習することが可能 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach はコメントを受け付けていません

A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization

要約 マーモセットは、高度に鳴き声を発する霊長類であり、社会的コミュニケーション … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization はコメントを受け付けていません

Aligning Audio-Visual Joint Representations with an Agentic Workflow

要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Aligning Audio-Visual Joint Representations with an Agentic Workflow はコメントを受け付けていません

Sing it, Narrate it: Quality Musical Lyrics Translation

要約 ミュージカルの歌詞の翻訳には、長さや韻などの歌いやすさの要件を守りながら、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Sing it, Narrate it: Quality Musical Lyrics Translation はコメントを受け付けていません

Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech

要約 自己回帰 (AR) Transformer ベースのシーケンス モデルは、 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech はコメントを受け付けていません