cs.SD」カテゴリーアーカイブ

DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset

要約 会話型AIの最近の進歩は、単一ターン応答の印象的な能力を実証していますが、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset はコメントを受け付けていません

Automated data curation for self-supervised learning in underwater acoustic analysis

要約 海洋生態系の持続可能性は、健全な汚染のレベルの増加によって脅かされており、 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Automated data curation for self-supervised learning in underwater acoustic analysis はコメントを受け付けていません

Bemba Speech Translation: Exploring a Low-Resource African Language

要約 このホワイトペーパーでは、スポークン言語翻訳に関する国際会議(IWSLT … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Bemba Speech Translation: Exploring a Low-Resource African Language はコメントを受け付けていません

‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding

要約 機械学習モデルから特定の情報を効率的に削除するプロセスであるマシンの未学習 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding はコメントを受け付けていません

Efficient Speech Translation through Model Compression and Knowledge Distillation

要約 音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Efficient Speech Translation through Model Compression and Knowledge Distillation はコメントを受け付けていません

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

要約 オーディオ認識の大規模な言語モデル(ALLMS)は、最近、オーディオ入力を … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data はコメントを受け付けていません

Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks

要約 ビデオから高品質のピアノオーディオを生成するには、視覚的な手がかりと音楽出 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks はコメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

要約 対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations はコメントを受け付けていません

CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining

要約 音楽の類似性検索は、ストリーミングプラットフォームの大規模なコレクションか … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining はコメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

要約 対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations はコメントを受け付けていません