eess.AS」カテゴリーアーカイブ

NAAQA: A Neural Architecture for Acoustic Question Answering

要約 音響質問応答 (AQA) タスクの目標は、音響シーンの内容に関する自由形式 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, I.2.10 | NAAQA: A Neural Architecture for Acoustic Question Answering はコメントを受け付けていません

Learning Temporal Resolution in Spectrogram for Audio Classification

要約 オーディオ スペクトログラムは、オーディオの分類に広く使用されている時間と … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | Learning Temporal Resolution in Spectrogram for Audio Classification はコメントを受け付けていません

Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper

要約 この論文では、複数の言語、特にラベル付きデータの数が限られている低リソース … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.AS | Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper はコメントを受け付けていません

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

要約 この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge はコメントを受け付けていません

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints

要約 この論文では、強力な遅延制約を伴う音声音声認識におけるコネクショニスト手法 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS, I.2.7 | Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints はコメントを受け付けていません

Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?

要約 実用的な音声聴力測定ツールは、さまざまな年齢や聴力状態の集団の聴力スクリー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition? はコメントを受け付けていません

A-JEPA: Joint-Embedding Predictive Architecture Can Listen

要約 この論文では、大規模な基礎ビジョン モデルの成功を推進するマスク モデリン … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | A-JEPA: Joint-Embedding Predictive Architecture Can Listen はコメントを受け付けていません

Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection

要約 リアルタイムかつ継続的な方向転換予測システムのデモンストレーションが行われ … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection はコメントを受け付けていません

Learning Audio Concepts from Counterfactual Natural Language

要約 従来の音声分類は事前定義されたクラスに依存しており、自由形式のテキストから … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Learning Audio Concepts from Counterfactual Natural Language はコメントを受け付けていません

MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector

要約 音声モダリティ(音声ベース)の自然言語処理における毒性検出の研究は、特に英 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector はコメントを受け付けていません