cs.SD」カテゴリーアーカイブ

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation

要約 直接音声ツー音声翻訳 (S2ST) は、単一のモデルを使用して音声をある言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation はコメントを受け付けていません

Adapting the adapters for code-switching in multilingual ASR

要約 最近、事前トレーニングされた大規模な多言語音声モデルにより、自動音声認識 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Adapting the adapters for code-switching in multilingual ASR はコメントを受け付けていません

Audio-Visual Neural Syntax Acquisition

要約 私たちは視覚に基づいた音声から句構造を誘導する研究を行っています。 中心と … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio-Visual Neural Syntax Acquisition はコメントを受け付けていません

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

要約 複雑な世界でロボットの動作をプログラミングするには、器用な低レベルのスキル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO, cs.SD, eess.AS | Chat with the Environment: Interactive Multimodal Perception Using Large Language Models はコメントを受け付けていません

Deep Video Inpainting Guided by Audio-Visual Self-Supervision

要約 人間は、視聴覚事象についての事前知識に基づいて、聴覚情報から容易に情景を想 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Deep Video Inpainting Guided by Audio-Visual Self-Supervision はコメントを受け付けていません

AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual Voice Conversion

要約 本稿では、サイクル構造とメルスペクトログラム前処理を備えたシンプルで堅牢な … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual Voice Conversion はコメントを受け付けていません

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration

要約 音声とテキストの位置合わせの問題については、トレーニング中に完全な監視を使 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration はコメントを受け付けていません

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

要約 オーディオビジュアルラージ言語モデル (LLM) は大きな注目を集めていま … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models はコメントを受け付けていません

Pre-trained Spatial Priors on Multichannel NMF for Music Source Separation

要約 この論文では、録音セットアップ中に取得された空間情報を活用した音源分離への … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Pre-trained Spatial Priors on Multichannel NMF for Music Source Separation はコメントを受け付けていません

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

要約 オーディオビジュアルラージ言語モデル (LLM) は大きな注目を集めていま … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models はコメントを受け付けていません