cs.SD」カテゴリーアーカイブ

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

要約 音声には、内容、パラ言語、環境情報などを含むがこれらに限定されない豊富な情 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

AudioBERT: Audio Knowledge Augmented Language Model

要約 最近の研究では、テキストのみのデータセットで事前トレーニングされた言語モデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントする

Sines, Transient, Noise Neural Modeling of Piano Notes

要約 この論文では、ピアノサウンドをエミュレートする新しい方法を紹介します。 正 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models

要約 この論文では、選択的状態空間モデルを備えたディープ ニューラル ネットワー … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation

要約 この論文では、コンピューター ビジョンの Frechet Inceptio … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントする

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | コメントする

Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning

要約 メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | コメントする

Salmon: A Suite for Acoustic Language Model Evaluation

要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models

要約 話者属性自動音声認識 (SA-ASR) は、音声を文字に起こしながら、対応 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

要約 近年、画像合成やテキスト生成の分野でAIGC(Artificial Int … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする