「eess.AS」カテゴリーアーカイブ

DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal denoising without clean data

投稿日: 2023年4月18日作成者: jarxiv

要約タイトル：クリーンデーターが不要な機械学習分散型音響センシング（DAS）ノ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, physics.geo-ph | コメントを受け付けていません

A CTC Alignment-based Non-autoregressive Transformer for End-to-end Automatic Speech Recognition

投稿日: 2023年4月18日作成者: jarxiv

要約タイトル: End-to-end自動音声認識のためのCTCアラインメントベ … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

E2E Spoken Entity Extraction for Virtual Agents

投稿日: 2023年4月18日作成者: jarxiv

要約タイトル：バーチャルエージェントのためのE2E音声エンティティ抽出要約： … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

How does ChatGPT rate sound semantics?

投稿日: 2023年4月18日作成者: jarxiv

要約タイトル：ChatGPTは音声意味をどのように評価するか？要約： &#8 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Prak: An automatic phonetic alignment tool for Czech

投稿日: 2023年4月18日作成者: jarxiv

要約タイトル：チェコ語の自動音声音韻アライメントツールである「Prak」要約 … 続きを読む →

カテゴリー: C.m, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers

投稿日: 2023年4月18日作成者: jarxiv

要約タイトル：航空交通管制官のトレーニングのための仮想シミュレーションパイロッ … 続きを読む →

カテゴリー: cs.AI, cs.HC, eess.AS | コメントを受け付けていません

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

投稿日: 2023年4月18日作成者: jarxiv

要約タイトル：ビジョン・オーディオ・ランゲージ・オムニパーセプションの事前学習 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, eess.AS | コメントを受け付けていません

Conditional Generation of Audio from Video via Foley Analogies

投稿日: 2023年4月18日作成者: jarxiv

要約タイトル：映像からの音声生成におけるFoleyアナロジーによる条件付け生成 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations

投稿日: 2023年4月17日作成者: jarxiv

要約タイトル：トークンと期間を共同予測することによる効率的なシーケンス変換要 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

投稿日: 2023年4月17日作成者: jarxiv

要約タイトル: HCAM – マルチモーダル感情認識のための階層的 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal denoising without clean data

A CTC Alignment-based Non-autoregressive Transformer for End-to-end Automatic Speech Recognition

E2E Spoken Entity Extraction for Virtual Agents

How does ChatGPT rate sound semantics?

Prak: An automatic phonetic alignment tool for Czech

A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Conditional Generation of Audio from Video via Foley Analogies

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations

HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー