cs.MM」カテゴリーアーカイブ

MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning

要約 マルチモーダル表現の学習には、複数の異種データ ソースからの情報を統合する … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning はコメントを受け付けていません

Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition

要約 感情的なコンピューティング タスクに複数のモダリティを融合することは、パフ … 続きを読む

カテゴリー: cs.CL, cs.MM, eess.AS, eess.IV | Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition はコメントを受け付けていません

Movie101: A New Movie Understanding Benchmark

要約 視覚障害者が映画を楽しめるよう、自動映画ナレーション システムは、俳優のセ … 続きを読む

カテゴリー: cs.CV, cs.MM | Movie101: A New Movie Understanding Benchmark はコメントを受け付けていません

You Can Mask More For Extremely Low-Bitrate Image Compression

要約 学習済み画像圧縮 (LIC) 手法は、近年大幅な進歩を遂げています。 ただ … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | You Can Mask More For Extremely Low-Bitrate Image Compression はコメントを受け付けていません

Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3

要約 このレポートでは、サウンド デミキシング チャレンジ 2023 の音楽デミ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3 はコメントを受け付けていません

Aligning Large Multi-Modal Model with Robust Instruction Tuning

要約 マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.MM | Aligning Large Multi-Modal Model with Robust Instruction Tuning はコメントを受け付けていません

FunQA: Towards Surprising Video Comprehension

要約 面白いクリップ、創造的なパフォーマンス、視覚的な錯覚など、驚くべきビデオは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | FunQA: Towards Surprising Video Comprehension はコメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition はコメントを受け付けていません

On Uni-Modal Feature Learning in Supervised Multi-Modal Learning

要約 マルチモーダル データの特徴 (つまり、学習された表現) を、1) ユニモ … 続きを読む

カテゴリー: cs.CV, cs.MM | On Uni-Modal Feature Learning in Supervised Multi-Modal Learning はコメントを受け付けていません

DiffWA: Diffusion Models for Watermark Attack

要約 ディープ ニューラル ネットワーク (DNN) の急速な発展に伴い、多くの … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | DiffWA: Diffusion Models for Watermark Attack はコメントを受け付けていません