eess.AS」カテゴリーアーカイブ

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

要約 この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, eess.AS | VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset はコメントを受け付けていません

Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders

要約 生のオーディオから音符を取得することを目的とした自動音楽転写 (AMT) … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders はコメントを受け付けていません

Single-Channel Distance-Based Source Separation for Mobile GPU in Outdoor and Indoor Environments

要約 この研究は、屋外環境における距離ベースの音源分離 (DSS) を探求する重 … 続きを読む

カテゴリー: cs.AI, eess.AS | Single-Channel Distance-Based Source Separation for Mobile GPU in Outdoor and Indoor Environments はコメントを受け付けていません

OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation

要約 全二重音声対話システムは、従来のターンベースの対話システムを大幅に凌駕して … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation はコメントを受け付けていません

Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC

要約 複数話者による音声認識(MTASR)は、重複音声の分離と書き起こしにおいて … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC はコメントを受け付けていません

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction はコメントを受け付けていません

MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization

要約 近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽インフォマティクス理 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization はコメントを受け付けていません

Speech Retrieval-Augmented Generation without Automatic Speech Recognition

要約 音声データに対する質問応答の一般的なアプローチの1つは、まず自動音声認識( … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | Speech Retrieval-Augmented Generation without Automatic Speech Recognition はコメントを受け付けていません

AdaptVC: High Quality Voice Conversion with Adaptive Learning

要約 音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AdaptVC: High Quality Voice Conversion with Adaptive Learning はコメントを受け付けていません

MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization

要約 近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽理解タスクにおいて、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization はコメントを受け付けていません