cs.MM」カテゴリーアーカイブ

Inter-Frame Compression for Dynamic Point Cloud Geometry Coding

要約 効率的な点群圧縮は、仮想現実や複合現実、自律走行、文化遺産などのアプリケー … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Inter-Frame Compression for Dynamic Point Cloud Geometry Coding はコメントを受け付けていません

TALDS-Net: Task-Aware Adaptive Local Descriptors Selection for Few-shot Image Classification

要約 数ショットの画像分類は、少ないサンプルで未知の新規クラスから画像を分類する … 続きを読む

カテゴリー: cs.CV, cs.MM | TALDS-Net: Task-Aware Adaptive Local Descriptors Selection for Few-shot Image Classification はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

要約 キャラクターを認識し、会話の話者を予測することは、音声生成や翻訳などのコミ … 続きを読む

カテゴリー: cs.CV, cs.MM | Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion はコメントを受け付けていません

MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model

要約 このペーパーでは、マルチイメージ推論におけるマルチモーダル大規模言語モデル … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model はコメントを受け付けていません

DreamCinema: Cinematic Transfer with Free Camera and 3D Character

要約 私たちはデジタル メディアの隆盛の時代に生きており、誰もが個人の映画製作者 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | DreamCinema: Cinematic Transfer with Free Camera and 3D Character はコメントを受け付けていません

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

要約 ビジュアルストーリーテリングでは、文字とシーンの一貫性を維持しながら、テキ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context はコメントを受け付けていません

Self-supervised Photographic Image Layout Representation Learning

要約 画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む

カテゴリー: cs.CV, cs.MM | Self-supervised Photographic Image Layout Representation Learning はコメントを受け付けていません

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

要約 従来のアニメーション生成方法は、人間がラベル付けしたデータを使用した生成モ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation はコメントを受け付けていません

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection

要約 この論文では、堅牢なオーディオビジュアルディープフェイク検出モデルを開発す … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection はコメントを受け付けていません