「cs.MM」カテゴリーアーカイブ

MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model

投稿日: 2024年8月23日作成者: jarxiv

要約このペーパーでは、マルチイメージ推論におけるマルチモーダル大規模言語モデル … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

DreamCinema: Cinematic Transfer with Free Camera and 3D Character

投稿日: 2024年8月23日作成者: jarxiv

要約私たちはデジタルメディアの隆盛の時代に生きており、誰もが個人の映画製作者 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

投稿日: 2024年8月22日作成者: jarxiv

要約ビジュアルストーリーテリングでは、文字とシーンの一貫性を維持しながら、テキ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Self-supervised Photographic Image Layout Representation Learning

投稿日: 2024年8月21日作成者: jarxiv

要約画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

投稿日: 2024年8月20日作成者: jarxiv

要約従来のアニメーション生成方法は、人間がラベル付けしたデータを使用した生成モ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection

投稿日: 2024年8月20日作成者: jarxiv

要約この論文では、堅牢なオーディオビジュアルディープフェイク検出モデルを開発す … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Perceptual Depth Quality Assessment of Stereoscopic Omnidirectional Images

投稿日: 2024年8月20日作成者: jarxiv

要約奥行き知覚は、没入型仮想現実 (VR) 視覚環境の視聴者エクスペリエンスに … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

投稿日: 2024年8月16日作成者: jarxiv

要約感情を理解することは、人間のコミュニケーションの基本的な側面です。オーデ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | コメントを受け付けていません

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection

投稿日: 2024年8月16日作成者: jarxiv

要約この論文では、堅牢なオーディオビジュアルディープフェイク検出モデルを開発す … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

A Multi-task Adversarial Attack Against Face Authentication

投稿日: 2024年8月16日作成者: jarxiv

要約顔認証システムなどの深層学習ベースの ID 管理システムは、敵対的な攻撃に … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model

DreamCinema: Cinematic Transfer with Free Camera and 3D Character

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

Self-supervised Photographic Image Layout Representation Learning

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection

Perceptual Depth Quality Assessment of Stereoscopic Omnidirectional Images

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection

A Multi-task Adversarial Attack Against Face Authentication

最近の投稿

最近のコメント

アーカイブ

カテゴリー