eess.AS」カテゴリーアーカイブ

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction はコメントを受け付けていません

Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning

要約 メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning はコメントを受け付けていません

Salmon: A Suite for Acoustic Language Model Evaluation

要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Salmon: A Suite for Acoustic Language Model Evaluation はコメントを受け付けていません

MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models

要約 話者属性自動音声認識 (SA-ASR) は、音声を文字に起こしながら、対応 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models はコメントを受け付けていません

XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

要約 近年、画像合成やテキスト生成の分野でAIGC(Artificial Int … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework はコメントを受け付けていません

Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey

要約 Transformers LLM の大幅な進歩により、NLP はテキスト生 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV, eess.AS | Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey はコメントを受け付けていません

AdaptVC: High Quality Voice Conversion with Adaptive Learning

要約 音声変換の目標は、元の内容を保持しながら、ソース話者の音声を基準話者の音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AdaptVC: High Quality Voice Conversion with Adaptive Learning はコメントを受け付けていません

Optimizing Speech Multi-View Feature Fusion through Conditional Computation

要約 最近の進歩により、さまざまな音声関連タスクにおける自己教師あり学習 (SS … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Optimizing Speech Multi-View Feature Fusion through Conditional Computation はコメントを受け付けていません

Audio-visual Deepfake Detection With Local Temporal Inconsistencies

要約 この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS | Audio-visual Deepfake Detection With Local Temporal Inconsistencies はコメントを受け付けていません

AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR

要約 センテンシャル内コードスイッチング (CS) は、単一の発話内で発生する言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR はコメントを受け付けていません