「eess.AS」カテゴリーアーカイブ

DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM

投稿日: 2024年11月27日作成者: jarxiv

要約この文書では、私たちの知る限り、音声制御デバイス向けの $\Delta$R … 続きを読む →

カテゴリー: cs.AR, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

投稿日: 2024年11月27日作成者: jarxiv

要約この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

投稿日: 2024年11月27日作成者: jarxiv

要約ビデオのサウンドエフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music

投稿日: 2024年11月25日作成者: jarxiv

要約音楽 AI モデルの表現を定量化し、人間の行動と一致させることは、MIR … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models

投稿日: 2024年11月25日作成者: jarxiv

要約本稿では、大規模かつ多様なオーディオエフェクトデータを生成するための合成デ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network

投稿日: 2024年11月25日作成者: jarxiv

要約音声認識と話者識別は、セキュリティやパーソナルアシスタントのアプリケーシ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

投稿日: 2024年11月22日作成者: jarxiv

要約大規模言語モデル (LLM) の急速な発展により、膨大なインテリジェントな … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

mHuBERT-147: A Compact Multilingual HuBERT Model

投稿日: 2024年11月22日作成者: jarxiv

要約我々は、90,000 時間のクリーンなオープンライセンスデータでトレーニ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection

投稿日: 2024年11月22日作成者: jarxiv

要約話し言葉検出 (STD) は、多くの場合、フレームレベルの機能や計算量の … 続きを読む →

カテゴリー: cs.CL, cs.IR, eess.AS | コメントを受け付けていません

HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset

投稿日: 2024年11月22日作成者: jarxiv

要約この寄稿では、イメージソースメソッドを使用して作成された 7 次アンビ … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

Video-Guided Foley Sound Generation with Multimodal Controls

DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music

Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models

Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

mHuBERT-147: A Compact Multilingual HuBERT Model

BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection

HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset

最近の投稿

最近のコメント

アーカイブ

カテゴリー