cs.SD」カテゴリーアーカイブ

DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models

要約 音声言語モデル (SLM) は、テキストベースのデコーダのみの言語モデルの … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models はコメントを受け付けていません

Aligning Audio-Visual Joint Representations with an Agentic Workflow

要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Aligning Audio-Visual Joint Representations with an Agentic Workflow はコメントを受け付けていません

Non-Invasive Suicide Risk Prediction Through Speech Analysis

要約 救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2 | Non-Invasive Suicide Risk Prediction Through Speech Analysis はコメントを受け付けていません

Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach

要約 音声言語モデリングの最近の進歩により、音声から直接言語を学習することが可能 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach はコメントを受け付けていません

A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization

要約 マーモセットは、高度に鳴き声を発する霊長類であり、社会的コミュニケーション … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization はコメントを受け付けていません

Aligning Audio-Visual Joint Representations with an Agentic Workflow

要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Aligning Audio-Visual Joint Representations with an Agentic Workflow はコメントを受け付けていません

Sing it, Narrate it: Quality Musical Lyrics Translation

要約 ミュージカルの歌詞の翻訳には、長さや韻などの歌いやすさの要件を守りながら、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Sing it, Narrate it: Quality Musical Lyrics Translation はコメントを受け付けていません

Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech

要約 自己回帰 (AR) Transformer ベースのシーケンス モデルは、 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech はコメントを受け付けていません

Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling

要約 音楽 AI の分野では、シンプルなリードシートから豊かで構造化されたマルチ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling はコメントを受け付けていません

RankUp: Boosting Semi-Supervised Regression with an Auxiliary Ranking Classifier

要約 FixMatch やその亜種などの最先端 (SOTA) 半教師あり学習手法 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | RankUp: Boosting Semi-Supervised Regression with an Auxiliary Ranking Classifier はコメントを受け付けていません