「cs.MM」カテゴリーアーカイブ

Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3

投稿日: 2023年6月27日作成者: jarxiv

要約このレポートでは、サウンドデミキシングチャレンジ 2023 の音楽デミ … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Aligning Large Multi-Modal Model with Robust Instruction Tuning

投稿日: 2023年6月27日作成者: jarxiv

要約マルチモーダルタスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む →

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

FunQA: Towards Surprising Video Comprehension

投稿日: 2023年6月27日作成者: jarxiv

要約面白いクリップ、創造的なパフォーマンス、視覚的な錯覚など、驚くべきビデオは … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

投稿日: 2023年6月26日作成者: jarxiv

要約最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

On Uni-Modal Feature Learning in Supervised Multi-Modal Learning

投稿日: 2023年6月26日作成者: jarxiv

要約マルチモーダルデータの特徴 (つまり、学習された表現) を、1) ユニモ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

DiffWA: Diffusion Models for Watermark Attack

投稿日: 2023年6月23日作成者: jarxiv

要約ディープニューラルネットワーク (DNN) の急速な発展に伴い、多くの … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

Knowledge-based Multimodal Music Similarity

投稿日: 2023年6月22日作成者: jarxiv

要約音楽の類似性は、音楽検索、推奨システム、および音楽分析にとって重要な側面で … 続きを読む →

カテゴリー: cs.AI, cs.IR, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

投稿日: 2023年6月21日作成者: jarxiv

要約広範な画像とテキストのペアデータを利用した事前トレーニング済みの視覚言語基 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian

投稿日: 2023年6月21日作成者: jarxiv

要約ビデオおよびテキストデータのマルチモーダル学習は、テキストからビデオへの … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

Low-complexity Multidimensional DCT Approximations

投稿日: 2023年6月21日作成者: jarxiv

要約この論文では、複雑さの低い多次元離散コサイン変換 (DCT) 近似を紹介し … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SY, eess.IV, eess.SY, stat.ME | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3

Aligning Large Multi-Modal Model with Robust Instruction Tuning

FunQA: Towards Surprising Video Comprehension

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

On Uni-Modal Feature Learning in Supervised Multi-Modal Learning

DiffWA: Diffusion Models for Watermark Attack

Knowledge-based Multimodal Music Similarity

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian

Low-complexity Multidimensional DCT Approximations

最近の投稿

最近のコメント

アーカイブ

カテゴリー