「eess.AS」カテゴリーアーカイブ

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

投稿日: 2024年10月14日作成者: jarxiv

要約理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

UniGlyph: A Seven-Segment Script for Universal Language Representation

投稿日: 2024年10月14日作成者: jarxiv

要約 UniGlyph は、7 セグメント文字から派生したスクリプトを使用してユ … 続きを読む →

カテゴリー: 68T01, 68T50, cs.CL, cs.HC, cs.SC, cs.SD, eess.AS, H.5.2 | コメントを受け付けていません

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

投稿日: 2024年10月14日作成者: jarxiv

要約柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (L … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Sylber: Syllabic Embedding Representation of Speech from Raw Audio

投稿日: 2024年10月10日作成者: jarxiv

要約音節は、人間の音声の知覚と生成において重要な役割を果たす話し言葉の構成単位 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling

投稿日: 2024年10月10日作成者: jarxiv

要約ビデオとオーディオの双方向の条件付き生成に合わせたマルチモーダル拡散モデル … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Presto! Distilling Steps and Layers for Accelerating Music Generation

投稿日: 2024年10月8日作成者: jarxiv

要約拡散ベースのテキスト音楽変換 (TTM) 手法は進歩していますが、効率的で … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Non-Invasive Suicide Risk Prediction Through Speech Analysis

投稿日: 2024年10月8日作成者: jarxiv

要約救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, I.2 | コメントを受け付けていません

CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translation

投稿日: 2024年10月8日作成者: jarxiv

要約ストリーミング音声翻訳 (ST) のモデルは、ソース言語の音声とターゲット … 続きを読む →

カテゴリー: cs.AI, cs.CL, eess.AS | コメントを受け付けていません

Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition

投稿日: 2024年10月7日作成者: jarxiv

要約テキストやビデオ入力に基づく音声生成、編集、作曲のためのマルチモーダルフレ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SonicSense: Object Perception from In-Hand Acoustic Vibration

投稿日: 2024年10月4日作成者: jarxiv

要約 SonicSenseを紹介する。SonicSenseは、ハードウェアとソフ … 続きを読む →

カテゴリー: cs.MM, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

UniGlyph: A Seven-Segment Script for Universal Language Representation

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

Sylber: Syllabic Embedding Representation of Speech from Raw Audio

CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling

Presto! Distilling Steps and Layers for Accelerating Music Generation

Non-Invasive Suicide Risk Prediction Through Speech Analysis

CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translation

Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition

SonicSense: Object Perception from In-Hand Acoustic Vibration

最近の投稿

最近のコメント

アーカイブ

カテゴリー