cs.MM」カテゴリーアーカイブ

Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency

要約 情報理論と機械学習は密接に関連しており、「同じコインの表裏」とも呼ばれてい … 続きを読む

カテゴリー: cs.IT, cs.LG, cs.MM, math.IT | Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency はコメントを受け付けていません

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment

要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment はコメントを受け付けていません

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

要約 テキストガイド付きビデオ予測 (TVP) には、指示に従って最初のフレーム … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction はコメントを受け付けていません

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

要約 音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations はコメントを受け付けていません

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers はコメントを受け付けていません

The Revolution of Multimodal Large Language Models: A Survey

要約 テキストとビジュアルモダリティを結び付けることは、生成知能において重要な役 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | The Revolution of Multimodal Large Language Models: A Survey はコメントを受け付けていません

ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation

要約 マルチシェイプ表現(複数のオブジェクトを「パッキング」する単一モデル)のた … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM | ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation はコメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

要約 この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。 まず、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling はコメントを受け付けていません

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

要約 大規模視覚言語モデル (LVLM) は、視覚入力から状況に応じて詳細で一貫 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding はコメントを受け付けていません

Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption

要約 最近の生成画像圧縮方法は、レートと歪みと知覚のトレードオフの最適化において … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption はコメントを受け付けていません