eess.AS」カテゴリーアーカイブ

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception

要約 音声認識および翻訳システムは、現実の環境では頻繁に発生するノイズの多い入力 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception はコメントを受け付けていません

A Multimodal Approach to Device-Directed Speech Detection with Large Language Models

要約 仮想アシスタントとの対話は通常、事前定義されたトリガー フレーズで始まり、 … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | A Multimodal Approach to Device-Directed Speech Detection with Large Language Models はコメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton

要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton はコメントを受け付けていません

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation

要約 この論文では、第 6 回野生感情行動分析 (ABAW) コンペティションの … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation はコメントを受け付けていません

LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

要約 自己教師あり学習 (SSL) は、コンピューター ビジョンや自然言語処理な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech はコメントを受け付けていません

Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models

要約 マルチソース拡散モデル (MSDM) を使用すると、一貫したソースのセット … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models はコメントを受け付けていません

A low latency attention module for streaming self-supervised speech representation learning

要約 トランスフォーマーは深層学習の基本的な構成要素であり、アテンション メカニ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | A low latency attention module for streaming self-supervised speech representation learning はコメントを受け付けていません

SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering

要約 音声質問応答 (SQA) は、マシンが特定の音声パッセージ内の回答範囲を見 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering はコメントを受け付けていません

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages

要約 自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計さ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages はコメントを受け付けていません

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

要約 音楽生成ダンスの研究は、斬新かつ挑戦的なイメージ生成タスクです。 音楽とシ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM, cs.SD, eess.AS | QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation はコメントを受け付けていません