cs.MM」カテゴリーアーカイブ

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

要約 テキストガイド付きビデオ予測 (TVP) には、指示に従って最初のフレーム … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction はコメントを受け付けていません

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

要約 音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations はコメントを受け付けていません

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers はコメントを受け付けていません

The Revolution of Multimodal Large Language Models: A Survey

要約 テキストとビジュアルモダリティを結び付けることは、生成知能において重要な役 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | The Revolution of Multimodal Large Language Models: A Survey はコメントを受け付けていません

ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation

要約 マルチシェイプ表現(複数のオブジェクトを「パッキング」する単一モデル)のた … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM | ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation はコメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

要約 この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。 まず、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling はコメントを受け付けていません

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

要約 大規模視覚言語モデル (LVLM) は、視覚入力から状況に応じて詳細で一貫 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding はコメントを受け付けていません

Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption

要約 最近の生成画像圧縮方法は、レートと歪みと知覚のトレードオフの最適化において … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption はコメントを受け付けていません

Progressive Confident Masking Attention Network for Audio-Visual Segmentation

要約 通常、オーディオ信号とビジュアル信号は同時に発生し、人間はこれら 2 つの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Progressive Confident Masking Attention Network for Audio-Visual Segmentation はコメントを受け付けていません

Edit As You Wish: Video Caption Editing with Multi-grained User Control

要約 ユーザの要求に応じて自然言語で自動的にナレーションを行うこと、すなわち、制 … 続きを読む

カテゴリー: cs.CV, cs.MM | Edit As You Wish: Video Caption Editing with Multi-grained User Control はコメントを受け付けていません