「eess.AS」カテゴリーアーカイブ

Non-Invasive Suicide Risk Prediction Through Speech Analysis

投稿日: 2024年10月31日作成者: jarxiv

要約救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, I.2 | コメントを受け付けていません

Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach

投稿日: 2024年10月31日作成者: jarxiv

要約音声言語モデリングの最近の進歩により、音声から直接言語を学習することが可能 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization

投稿日: 2024年10月31日作成者: jarxiv

要約マーモセットは、高度に鳴き声を発する霊長類であり、社会的コミュニケーション … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Aligning Audio-Visual Joint Representations with an Agentic Workflow

投稿日: 2024年10月31日作成者: jarxiv

要約ビジュアルコンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Sing it, Narrate it: Quality Musical Lyrics Translation

投稿日: 2024年10月30日作成者: jarxiv

要約ミュージカルの歌詞の翻訳には、長さや韻などの歌いやすさの要件を守りながら、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech

投稿日: 2024年10月30日作成者: jarxiv

要約自己回帰 (AR) Transformer ベースのシーケンスモデルは、 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling

投稿日: 2024年10月30日作成者: jarxiv

要約音楽 AI の分野では、シンプルなリードシートから豊かで構造化されたマルチ … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation

投稿日: 2024年10月30日作成者: jarxiv

要約このレポートでは、DCASE2024 タスク 3 チャレンジ「音源距離推定 … 続きを読む →

カテゴリー: cs.AI, eess.AS, eess.IV, eess.SP | コメントを受け付けていません

RankUp: Boosting Semi-Supervised Regression with an Auxiliary Ranking Classifier

投稿日: 2024年10月30日作成者: jarxiv

要約 FixMatch やその亜種などの最先端 (SOTA) 半教師あり学習手法 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

投稿日: 2024年10月29日作成者: jarxiv

要約咳や呼吸音などの呼吸音には、幅広い医療用途を予測する力がありますが、現時点 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Non-Invasive Suicide Risk Prediction Through Speech Analysis

Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach

A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization

Aligning Audio-Visual Joint Representations with an Agentic Workflow

Sing it, Narrate it: Quality Musical Lyrics Translation

Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech

Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling

Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation

RankUp: Boosting Semi-Supervised Regression with an Auxiliary Ranking Classifier

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

最近の投稿

最近のコメント

アーカイブ

カテゴリー