cs.SD」カテゴリーアーカイブ

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition はコメントを受け付けていません

Implicit Self-supervised Language Representation for Spoken Language Diarization

要約 コード交換 (CS) シナリオでは、事前所有システムとして音声言語ダイアラ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Implicit Self-supervised Language Representation for Spoken Language Diarization はコメントを受け付けていません

LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices

要約 LibriWASN は、LibriCSS 会議認識データ セットに厳密に準 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices はコメントを受け付けていません

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

要約 私たちが知覚する画像と音は、頭を回転させると、微妙ですが幾何学的に一貫した … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation はコメントを受け付けていません

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding

要約 最近、大規模な事前トレーニング済み言語モデルが強力な言語理解能力を実証して … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding はコメントを受け付けていません

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

要約 この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge はコメントを受け付けていません

TrOMR:Transformer-Based Polyphonic Optical Music Recognition

要約 光学式音楽認識 (OMR) は音楽における重要な技術であり、長い間研究され … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TrOMR:Transformer-Based Polyphonic Optical Music Recognition はコメントを受け付けていません

Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model

要約 自然言語処理の研究では、トレーニングされた自己回帰言語モデルからの生成の品 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring Sampling Techniques for Generating Melodies with a Transformer Language Model はコメントを受け付けていません

Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

要約 私たちは、650 時間以上の 19 チャンネル オーディオ、一次アンビソニ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning はコメントを受け付けていません

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

要約 私たちは、オーディオビジュアル アクション イベントの大規模なデータセット … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions はコメントを受け付けていません