「eess.AS」カテゴリーアーカイブ

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers

投稿日: 2024年9月4日作成者: jarxiv

要約近年のディープラーニング技術の進歩により、マルチモーダルな医療データに基づ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement

投稿日: 2024年9月2日作成者: jarxiv

要約 1 次元フィルターを備えた畳み込み層は、オーディオ信号をエンコードするため … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SelectTTS: Synthesizing Anyone’s Voice via Discrete Unit-Based Frame Selection

投稿日: 2024年9月2日作成者: jarxiv

要約見えない話者の音声を合成することは、複数話者のテキスト読み上げ (TTS) … 続きを読む →

カテゴリー: cs.LG, eess.AS | コメントを受け付けていません

Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

投稿日: 2024年9月2日作成者: jarxiv

要約この論文では、高品質で人間のような同時音声翻訳 (SiST) システムであ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Contextualized Automatic Speech Recognition with Dynamic Vocabulary

投稿日: 2024年9月2日作成者: jarxiv

要約ディープバイアス (DB) は、バイアスリストを使用して、まれな単語や … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

投稿日: 2024年9月2日作成者: jarxiv

要約オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

投稿日: 2024年9月2日作成者: jarxiv

要約音声の特徴に基づいて話者を識別する自動話者認証 (ASV) システムは、金 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Advancing Multi-talker ASR Performance with Large Language Models

投稿日: 2024年9月2日作成者: jarxiv

要約会話シナリオで複数の話者から重複する音声を認識することは、自動音声認識 ( … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

投稿日: 2024年9月2日作成者: jarxiv

要約言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods

投稿日: 2024年8月30日作成者: jarxiv

要約この論文では、線形および非線形の両方の硬いストリングのダイナミクスをモデル … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, physics.comp-ph | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers

Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement

SelectTTS: Synthesizing Anyone’s Voice via Discrete Unit-Based Frame Selection

Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

Contextualized Automatic Speech Recognition with Dynamic Vocabulary

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

Advancing Multi-talker ASR Performance with Large Language Models

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods

最近の投稿

最近のコメント

アーカイブ

カテゴリー