月別アーカイブ: 2023年5月

Analogy-Forming Transformers for Few-Shot 3D Parsing

要約 私たちは、構造化されたラベル付き 3D シーンのコレクション内でドメイン知 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Analogy-Forming Transformers for Few-Shot 3D Parsing はコメントを受け付けていません

Table Detection for Visually Rich Document Images

要約 表検出 (TD) は、文書を視覚的に豊かに理解するための基本的なタスクです … 続きを読む

カテゴリー: cs.CV, cs.IR | Table Detection for Visually Rich Document Images はコメントを受け付けていません

Video ControlNet: Towards Temporally Consistent Synthetic-to-Real Video Translation Using Conditional Image Diffusion Models

要約 この研究では、さまざまな長さのビデオで時間的に一貫した合成ビデオから実際の … 続きを読む

カテゴリー: cs.CV | Video ControlNet: Towards Temporally Consistent Synthetic-to-Real Video Translation Using Conditional Image Diffusion Models はコメントを受け付けていません

PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation

要約 Vision-and-Language Navigation (VLN) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation はコメントを受け付けていません

Catch-Up Distillation: You Only Need to Train Once for Accelerating Sampling

要約 拡散確率モデル (DPM) は、さまざまな機械学習ドメインで目覚ましい進歩 … 続きを読む

カテゴリー: cs.CV, cs.LG | Catch-Up Distillation: You Only Need to Train Once for Accelerating Sampling はコメントを受け付けていません

DäRF: Boosting Radiance Fields from Sparse Inputs with Monocular Depth Adaptation

要約 Neural Radiance Field (NeRF) は、新しいビュー … 続きを読む

カテゴリー: cs.CV | DäRF: Boosting Radiance Fields from Sparse Inputs with Monocular Depth Adaptation はコメントを受け付けていません

AMatFormer: Efficient Feature Matching via Anchor Matching Transformer

要約 学習ベースの特徴マッチング手法は、近年よく研究されています。 特徴マッチン … 続きを読む

カテゴリー: cs.AI, cs.CV | AMatFormer: Efficient Feature Matching via Anchor Matching Transformer はコメントを受け付けていません

Group Invariant Global Pooling

要約 グループ等変表現を構築するアーキテクチャを考案するために多くの研究が費やさ … 続きを読む

カテゴリー: cs.AI, cs.CG, cs.CV, cs.LG | Group Invariant Global Pooling はコメントを受け付けていません

Translation-Enhanced Multilingual Text-to-Image Generation

要約 他の言語では注釈付きの画像キャプション データが不足しているため、テキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Translation-Enhanced Multilingual Text-to-Image Generation はコメントを受け付けていません

Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting

要約 この論文では、ソース ビデオ内の 1 人の人物の顔の表情、頭のポーズ、体の … 続きを読む

カテゴリー: cs.CV | Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting はコメントを受け付けていません