「cs.SD」カテゴリーアーカイブ

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation

投稿日: 2023年10月12日作成者: jarxiv

要約直接音声ツー音声翻訳 (S2ST) は、単一のモデルを使用して音声をある言 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Adapting the adapters for code-switching in multilingual ASR

投稿日: 2023年10月12日作成者: jarxiv

要約最近、事前トレーニングされた大規模な多言語音声モデルにより、自動音声認識 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Audio-Visual Neural Syntax Acquisition

投稿日: 2023年10月12日作成者: jarxiv

要約私たちは視覚に基づいた音声から句構造を誘導する研究を行っています。中心と … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

投稿日: 2023年10月12日作成者: jarxiv

要約複雑な世界でロボットの動作をプログラミングするには、器用な低レベルのスキル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Deep Video Inpainting Guided by Audio-Visual Self-Supervision

投稿日: 2023年10月12日作成者: jarxiv

要約人間は、視聴覚事象についての事前知識に基づいて、聴覚情報から容易に情景を想 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual Voice Conversion

投稿日: 2023年10月11日作成者: jarxiv

要約本稿では、サイクル構造とメルスペクトログラム前処理を備えたシンプルで堅牢な … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration

投稿日: 2023年10月11日作成者: jarxiv

要約音声とテキストの位置合わせの問題については、トレーニング中に完全な監視を使 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

投稿日: 2023年10月11日作成者: jarxiv

要約オーディオビジュアルラージ言語モデル (LLM) は大きな注目を集めていま … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Pre-trained Spatial Priors on Multichannel NMF for Music Source Separation

投稿日: 2023年10月10日作成者: jarxiv

要約この論文では、録音セットアップ中に取得された空間情報を活用した音源分離への … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

投稿日: 2023年10月10日作成者: jarxiv

要約オーディオビジュアルラージ言語モデル (LLM) は大きな注目を集めていま … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation

Adapting the adapters for code-switching in multilingual ASR

Audio-Visual Neural Syntax Acquisition

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

Deep Video Inpainting Guided by Audio-Visual Self-Supervision

AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual Voice Conversion

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

Pre-trained Spatial Priors on Multichannel NMF for Music Source Separation

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー