「cs.MM」カテゴリーアーカイブ

Multimodal Multi-loss Fusion Network for Sentiment Analysis

投稿日: 2024年5月10日作成者: jarxiv

要約この論文では、複数のモダリティにわたる特徴エンコーダーの最適な選択と融合を … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM | コメントを受け付けていません

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

投稿日: 2024年5月9日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge Evaluation Plan

投稿日: 2024年5月9日作成者: jarxiv

要約 AI によって生成された歌声の急速な進歩により、自然な人間の歌声が忠実に模 … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Reviewing Intelligent Cinematography: AI research for camera-based video production

投稿日: 2024年5月9日作成者: jarxiv

要約この論文は、エンターテインメント目的での実際のカメラコンテンツ取得のコン … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection

投稿日: 2024年5月9日作成者: jarxiv

要約弱監視マルチモーダル暴力検出は、RGB、オプティカルフロー、オーディオな … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions

投稿日: 2024年5月9日作成者: jarxiv

要約電子透かしは、人間の目には検出できない方法で画像を変更することで秘密情報を … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

Language Models as Black-Box Optimizers for Vision-Language Models

投稿日: 2024年5月8日作成者: jarxiv

要約 Web スケールのデータセットで事前トレーニングされたビジョン言語モデル … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

投稿日: 2024年5月8日作成者: jarxiv

要約既存のオープンボキャブラリーの画像セグメンテーション手法では、マスクラベ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

DBDH: A Dual-Branch Dual-Head Neural Network for Invisible Embedded Regions Localization

投稿日: 2024年5月7日作成者: jarxiv

要約 QRコードに代わる不可視のハイパーリンクや隠しコードを画像に埋め込むことが … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

A Rate-Distortion-Classification Approach for Lossy Image Compression

投稿日: 2024年5月7日作成者: jarxiv

要約非可逆画像圧縮では、指定されたビットレートに画像を圧縮しながら、最小限の信 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IT, cs.MM, math.IT | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Multimodal Multi-loss Fusion Network for Sentiment Analysis

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge Evaluation Plan

Reviewing Intelligent Cinematography: AI research for camera-based video production

Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection

Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions

Language Models as Black-Box Optimizers for Vision-Language Models

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

DBDH: A Dual-Branch Dual-Head Neural Network for Invisible Embedded Regions Localization

A Rate-Distortion-Classification Approach for Lossy Image Compression

最近の投稿

最近のコメント

アーカイブ

カテゴリー