eess.AS」カテゴリーアーカイブ

Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

要約 この論文では、高品質で人間のような同時音声翻訳 (SiST) システムであ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent はコメントを受け付けていません

Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism

要約 部分的にスプーフィングされたオーディオ位置特定のタスクは、フレーム レベル … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism はコメントを受け付けていません

Between the AI and Me: Analysing Listeners’ Perspectives on AI- and Human-Composed Progressive Metal Music

要約 生成 AI モデルは最近開花し、芸術や音楽の伝統に大きな影響を与えています … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | Between the AI and Me: Analysing Listeners’ Perspectives on AI- and Human-Composed Progressive Metal Music はコメントを受け付けていません

ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024

要約 Inspireal and Convincing Audio Genera … 続きを読む

カテゴリー: cs.AI, eess.AS | ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024 はコメントを受け付けていません

Stable Audio Open

要約 オープン生成モデルはコミュニティにとって非常に重要であり、微調整が可能であ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Stable Audio Open はコメントを受け付けていません

Versatile audio-visual learning for emotion recognition

要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Versatile audio-visual learning for emotion recognition はコメントを受け付けていません

Contrasting Deep Learning Models for Direct Respiratory Insufficiency Detection Versus Blood Oxygen Saturation Estimation

要約 一般的な音声分類タスク用に設計され、自動音声分析を通じて呼吸不全 (RI) … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Contrasting Deep Learning Models for Direct Respiratory Insufficiency Detection Versus Blood Oxygen Saturation Estimation はコメントを受け付けていません

Decoding Linguistic Representations of Human Brain

要約 高度な生物によって作成された情報媒体としての言語は、脳内でどのように表現さ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Decoding Linguistic Representations of Human Brain はコメントを受け付けていません

Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation

要約 感情的な側面を管理することは、音楽の自動生成において依然として課題です。 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation はコメントを受け付けていません

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions はコメントを受け付けていません