eess.AS」カテゴリーアーカイブ

Two-component spatiotemporal template for activation-inhibition of speech in ECoG

要約 子音母音の発話タスク中に複数の被験者から記録された、マルチチャネル高密度皮 … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS, eess.SP, q-bio.NC | Two-component spatiotemporal template for activation-inhibition of speech in ECoG はコメントを受け付けていません

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

要約 TangoFlux は、5 億 1500 万のパラメーターを備えた効率的な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization はコメントを受け付けていません

ETTA: Elucidating the Design Space of Text-to-Audio Models

要約 近年、Text-To-Audio (TTA) 合成が大幅に進歩しており、ユ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | ETTA: Elucidating the Design Space of Text-to-Audio Models はコメントを受け付けていません

Building a Taiwanese Mandarin Spoken Language Model: A First Attempt

要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Building a Taiwanese Mandarin Spoken Language Model: A First Attempt はコメントを受け付けていません

Mamba for Streaming ASR Combined with Unimodal Aggregation

要約 この論文はストリーミング自動音声認識 (ASR) に取り組んでいます。 最 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Mamba for Streaming ASR Combined with Unimodal Aggregation はコメントを受け付けていません

Enhancing Whisper’s Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization

要約 自動音声認識は、最近、Whisper などの大規模な基礎モデルによって大幅 … 続きを読む

カテゴリー: cs.CL, eess.AS | Enhancing Whisper’s Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization はコメントを受け付けていません

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training はコメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling はコメントを受け付けていません

Zero-resource Speech Translation and Recognition with LLMs

要約 音声処理の最近の進歩にも関わらず、ゼロリソース音声翻訳 (ST) と自動音 … 続きを読む

カテゴリー: cs.CL, eess.AS | Zero-resource Speech Translation and Recognition with LLMs はコメントを受け付けていません

Long-Form Speech Generation with Spoken Language Models

要約 私たちは、長文マルチメディア生成とオーディオネイティブ音声アシスタントの要 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Long-Form Speech Generation with Spoken Language Models はコメントを受け付けていません