cs.MM」カテゴリーアーカイブ

Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques

要約 テキスト データは一般に、音声感情認識 (SER) のパフォーマンスと信頼 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques はコメントを受け付けていません

Learning Domain-Invariant Features for Out-of-Context News Detection

要約 文脈を無視したマルチモーダルなニュースは、オンライン メディア プラットフ … 続きを読む

カテゴリー: cs.CL, cs.MM | Learning Domain-Invariant Features for Out-of-Context News Detection はコメントを受け付けていません

Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency

要約 情報理論と機械学習は密接に関連しており、「同じコインの表裏」とも呼ばれてい … 続きを読む

カテゴリー: cs.IT, cs.LG, cs.MM, math.IT | Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency はコメントを受け付けていません

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment

要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment はコメントを受け付けていません

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

要約 テキストガイド付きビデオ予測 (TVP) には、指示に従って最初のフレーム … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction はコメントを受け付けていません

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

要約 音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations はコメントを受け付けていません

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers はコメントを受け付けていません

The Revolution of Multimodal Large Language Models: A Survey

要約 テキストとビジュアルモダリティを結び付けることは、生成知能において重要な役 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | The Revolution of Multimodal Large Language Models: A Survey はコメントを受け付けていません

ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation

要約 マルチシェイプ表現(複数のオブジェクトを「パッキング」する単一モデル)のた … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM | ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation はコメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

要約 この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。 まず、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling はコメントを受け付けていません