「cs.SD」カテゴリーアーカイブ

DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset

投稿日: 2025年5月27日作成者: jarxiv

要約会話型AIの最近の進歩は、単一ターン応答の印象的な能力を実証していますが、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Automated data curation for self-supervised learning in underwater acoustic analysis

投稿日: 2025年5月27日作成者: jarxiv

要約海洋生態系の持続可能性は、健全な汚染のレベルの増加によって脅かされており、 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Bemba Speech Translation: Exploring a Low-Resource African Language

投稿日: 2025年5月27日作成者: jarxiv

要約このホワイトペーパーでは、スポークン言語翻訳に関する国際会議（IWSLT … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding

投稿日: 2025年5月27日作成者: jarxiv

要約機械学習モデルから特定の情報を効率的に削除するプロセスであるマシンの未学習 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Efficient Speech Translation through Model Compression and Knowledge Distillation

投稿日: 2025年5月27日作成者: jarxiv

要約音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

投稿日: 2025年5月27日作成者: jarxiv

要約オーディオ認識の大規模な言語モデル（ALLMS）は、最近、オーディオ入力を … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks

投稿日: 2025年5月27日作成者: jarxiv

要約ビデオから高品質のピアノオーディオを生成するには、視覚的な手がかりと音楽出 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

投稿日: 2025年5月27日作成者: jarxiv

要約対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining

投稿日: 2025年5月26日作成者: jarxiv

要約音楽の類似性検索は、ストリーミングプラットフォームの大規模なコレクションか … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

投稿日: 2025年5月26日作成者: jarxiv

要約対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset

Automated data curation for self-supervised learning in underwater acoustic analysis

Bemba Speech Translation: Exploring a Low-Resource African Language

‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding

Efficient Speech Translation through Model Compression and Knowledge Distillation

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

最近の投稿

最近のコメント

アーカイブ

カテゴリー