cs.MM」カテゴリーアーカイブ

MultiViz: Towards Visualizing and Understanding Multimodal Models

要約 現実世界のアプリケーションに対するマルチモーダル モデルの可能性は、利害関 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | MultiViz: Towards Visualizing and Understanding Multimodal Models はコメントを受け付けていません

Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

要約 マルチモーダル機械学習は、言語、音響、視覚、触覚、生理学的メッセージなど、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions はコメントを受け付けていません

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

要約 一般化された深いモデルに対する緊急の需要により、BERT、ViT、GPT … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey はコメントを受け付けていません

Foundation Models for Natural Language Processing — Pre-trained Language Models Integrating Media

要約 このオープン アクセス ブックは、Foundation Models の研 … 続きを読む

カテゴリー: 68W20, 68W25, cs.CL, cs.CV, cs.LG, cs.MM, I.2.10 | Foundation Models for Natural Language Processing — Pre-trained Language Models Integrating Media はコメントを受け付けていません

Vision, Deduction and Alignment: An Empirical Study on Multi-modal Knowledge Graph Alignment

要約 ナレッジ グラフ (KG) のエンティティ アライメント (EA) は、ナ … 続きを読む

カテゴリー: cs.AI, cs.MM | Vision, Deduction and Alignment: An Empirical Study on Multi-modal Knowledge Graph Alignment はコメントを受け付けていません

Revisiting Pre-training in Audio-Visual Learning

要約 事前トレーニング手法は、さまざまなタスクでモデルのパフォーマンスを向上させ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Revisiting Pre-training in Audio-Visual Learning はコメントを受け付けていません

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

要約 最近の研究では、視覚情報のみから音声を再構築することを目的とした口語合成で … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Lip-to-Speech Synthesis in the Wild with Multi-task Learning はコメントを受け付けていません

Audio-Visual Segmentation

要約 オーディオ ビジュアル セグメンテーション (AVS) と呼ばれる新しい問 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Audio-Visual Segmentation はコメントを受け付けていません

CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension

要約 自然言語表現によって記述された画像領域のローカライズを目的としたマルチモー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension はコメントを受け付けていません

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

要約 大規模な text-to-image (T2I) モデルの信じられないほど … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models はコメントを受け付けていません