「eess.AS」カテゴリーアーカイブ

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

投稿日: 2025年1月6日作成者: jarxiv

要約近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization

投稿日: 2025年1月6日作成者: jarxiv

要約近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽インフォマティクス理 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Speech Retrieval-Augmented Generation without Automatic Speech Recognition

投稿日: 2025年1月6日作成者: jarxiv

要約音声データに対する質問応答の一般的なアプローチの1つは、まず自動音声認識（ … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

AdaptVC: High Quality Voice Conversion with Adaptive Learning

投稿日: 2025年1月6日作成者: jarxiv

要約音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization

投稿日: 2025年1月5日作成者: jarxiv

要約近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽理解タスクにおいて、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

AdaptVC: High Quality Voice Conversion with Adaptive Learning

投稿日: 2025年1月5日作成者: jarxiv

要約音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios

投稿日: 2025年1月5日作成者: jarxiv

要約大規模な言語モデルの急速な発展により、研究者は人間と自然に会話できる高度な … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

投稿日: 2025年1月3日作成者: jarxiv

要約小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

RiTTA: Modeling Event Relations in Text-to-Audio Generation

投稿日: 2025年1月3日作成者: jarxiv

要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction

投稿日: 2025年1月3日作成者: jarxiv

要約自動ビデオダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization

Speech Retrieval-Augmented Generation without Automatic Speech Recognition

AdaptVC: High Quality Voice Conversion with Adaptive Learning

MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization

AdaptVC: High Quality Voice Conversion with Adaptive Learning

OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

RiTTA: Modeling Event Relations in Text-to-Audio Generation

Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction

最近の投稿

最近のコメント

アーカイブ

カテゴリー