eess.AS」カテゴリーアーカイブ

UnIVAL: Unified Model for Image, Video, Audio and Language Tasks

要約 大規模言語モデル (LLM) により、ゼネラリスト エージェントの野心的な … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | UnIVAL: Unified Model for Image, Video, Audio and Language Tasks はコメントを受け付けていません

BANSpEmo: A Bangla Emotional Speech Recognition Dataset

要約 音声および音声分析の分野では、音響信号から感情を識別する機能が不可欠です。 … 続きを読む

カテゴリー: cs.HC, cs.LG, cs.SD, eess.AS | BANSpEmo: A Bangla Emotional Speech Recognition Dataset はコメントを受け付けていません

Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization

要約 アクティブ話者検出 (ASD) のための従来のオーディオビジュアル アプロ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.IV, eess.SP | Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization はコメントを受け付けていません

Speech Translation with Large Language Models: An Industrial Practice

要約 さまざまなタスクにわたる大規模言語モデル (LLM) が大きな成功を収めて … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speech Translation with Large Language Models: An Industrial Practice はコメントを受け付けていません

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

要約 最近、指示に従う音声言語モデルが、人間との音声対話において広く注目を集めて … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models はコメントを受け付けていません

EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models

要約 韻律強調をエンコードして再現する音声合成モデルの機能を評価するために設計さ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models はコメントを受け付けていません

On the choice of the optimal temporal support for audio classification with Pre-trained embeddings

要約 現在の最先端のオーディオ分析システムは、事前にトレーニングされた埋め込みモ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | On the choice of the optimal temporal support for audio classification with Pre-trained embeddings はコメントを受け付けていません

Underwater Acoustic Signal Recognition Based on Salient Features

要約 技術の急速な進歩に伴い、複雑な環境における水中の音響信号の認識がますます重 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Underwater Acoustic Signal Recognition Based on Salient Features はコメントを受け付けていません

Lattice Rescoring Based on Large Ensemble of Complementary Neural Language Models

要約 自動音声認識 (ASR) 仮説に基づく格子再スコアリングに高度な神経言語モ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Lattice Rescoring Based on Large Ensemble of Complementary Neural Language Models はコメントを受け付けていません

Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition

要約 既存の SSL モデルをターゲット ドメインに適応させるための継続的な自己 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition はコメントを受け付けていません