cs.SD」カテゴリーアーカイブ

Multi-Task Learning for Lung sound & Lung disease classification

要約 近年、ディープラーニング技術の進歩により、医療診断の効率と精度が大幅に向上 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD | Multi-Task Learning for Lung sound & Lung disease classification はコメントを受け付けていません

As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli

要約 合成メディアが次第にリアルになり、それを利用する障壁が下がり続けるにつれ、 … 続きを読む

カテゴリー: 68T01, cs.AI, cs.HC, cs.SD, eess.AS, I.2 | As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli はコメントを受け付けていません

Analyzing Musical Characteristics of National Anthems in Relation to Global Indices

要約 音楽は人々の心理や行動パターンの形成に大きな役割を果たしている。本論文では … 続きを読む

カテゴリー: cs.AI, cs.IR, cs.SD, eess.AS | Analyzing Musical Characteristics of National Anthems in Relation to Global Indices はコメントを受け付けていません

UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions

要約 最近の研究では、マルチタスク機能を持つ大規模な言語モデルを活用し、自然言語 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions はコメントを受け付けていません

PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders

要約 ニューラル・スピーチ・コーデックは、音声変換、テキスト音声合成などのような … 続きを読む

カテゴリー: cs.AI, cs.SD | PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders はコメントを受け付けていません

Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials

要約 臨床試験には相当数の臨床医、患者、データ収集環境が関与するため、優れた品質 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials はコメントを受け付けていません

Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context

要約 アフリカの音声のみを対象としてトレーニングされた、最初の自己教師あり多言語 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context はコメントを受け付けていません

LastResort at SemEval-2024 Task 3: Exploring Multimodal Emotion Cause Pair Extraction as Sequence Labelling Task

要約 会話は人間のコミュニケーションの最も自然な形式であり、それぞれの発話がさま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LastResort at SemEval-2024 Task 3: Exploring Multimodal Emotion Cause Pair Extraction as Sequence Labelling Task はコメントを受け付けていません

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

要約 大規模言語モデル (LLM) は、マルチモーダルなアプリケーションにおいて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response はコメントを受け付けていません

SPMamba: State-space model is all you need in speech separation

要約 音声分離では、CNN ベースのモデルと Transformer ベースのモ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | SPMamba: State-space model is all you need in speech separation はコメントを受け付けていません