「cs.MM」カテゴリーアーカイブ

Vision, Deduction and Alignment: An Empirical Study on Multi-modal Knowledge Graph Alignment

投稿日: 2023年2月20日作成者: jarxiv

要約ナレッジグラフ (KG) のエンティティアライメント (EA) は、ナ … 続きを読む →

カテゴリー: cs.AI, cs.MM | コメントを受け付けていません

Revisiting Pre-training in Audio-Visual Learning

投稿日: 2023年2月20日作成者: jarxiv

要約事前トレーニング手法は、さまざまなタスクでモデルのパフォーマンスを向上させ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

投稿日: 2023年2月20日作成者: jarxiv

要約最近の研究では、視覚情報のみから音声を再構築することを目的とした口語合成で … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Audio-Visual Segmentation

投稿日: 2023年2月20日作成者: jarxiv

要約オーディオビジュアルセグメンテーション (AVS) と呼ばれる新しい問 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension

投稿日: 2023年2月20日作成者: jarxiv

要約自然言語表現によって記述された画像領域のローカライズを目的としたマルチモー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

投稿日: 2023年2月17日作成者: jarxiv

要約大規模な text-to-image (T2I) モデルの信じられないほど … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

On the Importance of Noise Scheduling for Diffusion Models

投稿日: 2023年2月17日作成者: jarxiv

要約拡散生成モデルのノイズを除去するためのノイズスケジューリング戦略の効果を経 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM | コメントを受け付けていません

Protein Representation Learning via Knowledge Enhanced Primary Structure Modeling

投稿日: 2023年2月16日作成者: jarxiv

要約タンパク質表現学習は、主に言語モデル (LM) の目覚ましい発展の恩恵を受 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM | コメントを受け付けていません

Deepfake Detection: A Comprehensive Study from the Reliability Perspective

投稿日: 2023年2月16日作成者: jarxiv

要約インターネット上で流通しているディープフェイクの合成素材は、政治家、有名人 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

3D-VFD: A Victim-free Detector against 3D Adversarial Point Clouds

投稿日: 2023年2月16日作成者: jarxiv

要約点群を使用する 3D ディープモデルは、コンピュータービジョンで優れた … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Vision, Deduction and Alignment: An Empirical Study on Multi-modal Knowledge Graph Alignment

Revisiting Pre-training in Audio-Visual Learning

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

Audio-Visual Segmentation

CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

On the Importance of Noise Scheduling for Diffusion Models

Protein Representation Learning via Knowledge Enhanced Primary Structure Modeling

Deepfake Detection: A Comprehensive Study from the Reliability Perspective

3D-VFD: A Victim-free Detector against 3D Adversarial Point Clouds

最近の投稿

最近のコメント

アーカイブ

カテゴリー