月別アーカイブ: 2023年2月

Visual Spatial Reasoning

投稿日: 2023年2月10日作成者: jarxiv

要約空間関係は、人間の認知の基本的な部分です。ただし、それらはさまざまな方法 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Is This Loss Informative? Speeding Up Textual Inversion with Deterministic Objective Evaluation

投稿日: 2023年2月10日作成者: jarxiv

要約テキストから画像への生成モデルは、画像合成における進化の次のステップを表し … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Robot Synesthesia: A Sound and Emotion Guided AI Painter

投稿日: 2023年2月10日作成者: jarxiv

要約絵が千の言葉を描くなら、音は百万の言葉を発するかもしれません。最近のロボ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Trading Information between Latents in Hierarchical Variational Autoencoders

投稿日: 2023年2月10日作成者: jarxiv

要約 Variational Autoencoders (VAE) は、もともと … 続きを読む →

カテゴリー: cs.CV, cs.IT, cs.LG, math.IT, stat.ML | コメントを受け付けていません

One-shot Visual Imitation via Attributed Waypoints and Demonstration Augmentation

投稿日: 2023年2月10日作成者: jarxiv

要約この論文では、既存の手法の動作を分析し、ワンショットの視覚的模倣の問題に対 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

投稿日: 2023年2月10日作成者: jarxiv

要約ビジョンエンコーダー (Flamingo など) を使用して事前トレーニ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG | コメントを受け付けていません

Diverse Human Motion Prediction Guided by Multi-Level Spatial-Temporal Anchors

投稿日: 2023年2月10日作成者: jarxiv

要約一連の歴史的なポーズから与えられた多様な人間の動きを予測することは、ますま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Polynomial Neural Fields for Subband Decomposition and Manipulation

投稿日: 2023年2月10日作成者: jarxiv

要約ニューラルフィールドは、信号を表現するための新しいパラダイムとして登場し … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Learning by Asking for Embodied Visual Navigation and Task Completion

投稿日: 2023年2月10日作成者: jarxiv

要約研究コミュニティは、人間がタスクを遂行するのを支援できるインテリジェントな … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models

投稿日: 2023年2月10日作成者: jarxiv

要約拡散確率モデル (DPM) は、高解像度の画像合成において非常に有望な能力 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2023年2月

Visual Spatial Reasoning

Is This Loss Informative? Speeding Up Textual Inversion with Deterministic Objective Evaluation

Robot Synesthesia: A Sound and Emotion Guided AI Painter

Trading Information between Latents in Hierarchical Variational Autoencoders

One-shot Visual Imitation via Attributed Waypoints and Demonstration Augmentation

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

Diverse Human Motion Prediction Guided by Multi-Level Spatial-Temporal Anchors

Polynomial Neural Fields for Subband Decomposition and Manipulation

Learning by Asking for Embodied Visual Navigation and Task Completion

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー