eess.AS」カテゴリーアーカイブ

DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal denoising without clean data

要約 タイトル:クリーンデーターが不要な機械学習分散型音響センシング(DAS)ノ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, physics.geo-ph | DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal denoising without clean data はコメントを受け付けていません

A CTC Alignment-based Non-autoregressive Transformer for End-to-end Automatic Speech Recognition

要約 タイトル: End-to-end自動音声認識のためのCTCアラインメントベ … 続きを読む

カテゴリー: cs.CL, eess.AS | A CTC Alignment-based Non-autoregressive Transformer for End-to-end Automatic Speech Recognition はコメントを受け付けていません

E2E Spoken Entity Extraction for Virtual Agents

要約 タイトル:バーチャルエージェントのためのE2E音声エンティティ抽出 要約: … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | E2E Spoken Entity Extraction for Virtual Agents はコメントを受け付けていません

How does ChatGPT rate sound semantics?

要約 タイトル:ChatGPTは音声意味をどのように評価するか? 要約: &#8 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | How does ChatGPT rate sound semantics? はコメントを受け付けていません

Prak: An automatic phonetic alignment tool for Czech

要約 タイトル:チェコ語の自動音声音韻アライメントツールである「Prak」 要約 … 続きを読む

カテゴリー: C.m, cs.CL, cs.SD, eess.AS | Prak: An automatic phonetic alignment tool for Czech はコメントを受け付けていません

A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers

要約 タイトル:航空交通管制官のトレーニングのための仮想シミュレーションパイロッ … 続きを読む

カテゴリー: cs.AI, cs.HC, eess.AS | A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers はコメントを受け付けていません

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

要約 タイトル:ビジョン・オーディオ・ランゲージ・オムニパーセプションの事前学習 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, eess.AS | VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset はコメントを受け付けていません

Conditional Generation of Audio from Video via Foley Analogies

要約 タイトル:映像からの音声生成におけるFoleyアナロジーによる条件付け生成 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Conditional Generation of Audio from Video via Foley Analogies はコメントを受け付けていません

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations

要約 タイトル:トークンと期間を共同予測することによる効率的なシーケンス変換 要 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Efficient Sequence Transduction by Jointly Predicting Tokens and Durations はコメントを受け付けていません

HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

要約 タイトル: HCAM – マルチモーダル感情認識のための階層的 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition はコメントを受け付けていません