cs.MM」カテゴリーアーカイブ

Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive Learning

要約 ディープラーニング技術は優れた感情予測を達成していますが、それでも大量のラ … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.MM | Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive Learning はコメントを受け付けていません

Disentangling Multi-view Representations Beyond Inductive Bias

要約 多視点(または-モダリティ)表現学習は、異なるビュー表現間の関係を理解する … 続きを読む

カテゴリー: cs.CV, cs.MM | Disentangling Multi-view Representations Beyond Inductive Bias はコメントを受け付けていません

SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation

要約 本論文では、SVCNetと呼ばれる、時間集約を用いた走り書きに基づく動画色 … 続きを読む

カテゴリー: cs.CV, cs.MM | SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation はコメントを受け付けていません

Video Background Music Generation: Dataset, Method and Evaluation

要約 動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video Background Music Generation: Dataset, Method and Evaluation はコメントを受け付けていません

Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach

要約 自然界における映像の普及は、映像品質評価(VQA)の問題を大きく拡大した。 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach はコメントを受け付けていません

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

要約 急速に進化するeコマースやメタバース分野では、消費者体験を向上させる革新的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On はコメントを受け付けていません

Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model

要約 現在のキャプション手法は、名前付きエンティティやコンテキスト情報など、現実 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model はコメントを受け付けていません

Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation

要約 最近増加しているマークアップからイメージへの生成は、エラーに対する許容度が … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation はコメントを受け付けていません

ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation

要約 画像ベースの対話システムは、視覚情報を統合することで大きな恩恵を受け、高品 … 続きを読む

カテゴリー: cs.CL, cs.MM | ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation はコメントを受け付けていません

Multi-Modality Multi-Loss Fusion Network

要約 この研究では、複数のモダリティにわたる特徴の最適な選択と融合を調査し、これ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM | Multi-Modality Multi-Loss Fusion Network はコメントを受け付けていません