「cs.MM」カテゴリーアーカイブ

Learning Domain-Invariant Features for Out-of-Context News Detection

投稿日: 2024年6月12日作成者: jarxiv

要約文脈を無視したマルチモーダルなニュースは、オンラインメディアプラットフ … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency

投稿日: 2024年6月11日作成者: jarxiv

要約情報理論と機械学習は密接に関連しており、「同じコインの表裏」とも呼ばれてい … 続きを読む →

カテゴリー: cs.IT, cs.LG, cs.MM, math.IT | コメントを受け付けていません

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment

投稿日: 2024年6月11日作成者: jarxiv

要約この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | コメントを受け付けていません

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

投稿日: 2024年6月11日作成者: jarxiv

要約テキストガイド付きビデオ予測 (TVP) には、指示に従って最初のフレーム … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

投稿日: 2024年6月10日作成者: jarxiv

要約音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

投稿日: 2024年6月10日作成者: jarxiv

要約事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

The Revolution of Multimodal Large Language Models: A Survey

投稿日: 2024年6月7日作成者: jarxiv

要約テキストとビジュアルモダリティを結び付けることは、生成知能において重要な役 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation

投稿日: 2024年6月7日作成者: jarxiv

要約マルチシェイプ表現（複数のオブジェクトを「パッキング」する単一モデル）のた … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM | コメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

投稿日: 2024年6月7日作成者: jarxiv

要約この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。まず、 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | コメントを受け付けていません

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

投稿日: 2024年6月6日作成者: jarxiv

要約大規模視覚言語モデル (LVLM) は、視覚入力から状況に応じて詳細で一貫 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Learning Domain-Invariant Features for Out-of-Context News Detection

Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

The Revolution of Multimodal Large Language Models: A Survey

ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

最近の投稿

最近のコメント

アーカイブ

カテゴリー