月別アーカイブ: 2023年2月

Visual Spatial Reasoning

要約 空間関係は、人間の認知の基本的な部分です。 ただし、それらはさまざまな方法 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Visual Spatial Reasoning はコメントを受け付けていません

Is This Loss Informative? Speeding Up Textual Inversion with Deterministic Objective Evaluation

要約 テキストから画像への生成モデルは、画像合成における進化の次のステップを表し … 続きを読む

カテゴリー: cs.CV, cs.LG | Is This Loss Informative? Speeding Up Textual Inversion with Deterministic Objective Evaluation はコメントを受け付けていません

Robot Synesthesia: A Sound and Emotion Guided AI Painter

要約 絵が千の言葉を描くなら、音は百万の言葉を発するかもしれません。 最近のロボ … 続きを読む

カテゴリー: cs.CV | Robot Synesthesia: A Sound and Emotion Guided AI Painter はコメントを受け付けていません

Trading Information between Latents in Hierarchical Variational Autoencoders

要約 Variational Autoencoders (VAE) は、もともと … 続きを読む

カテゴリー: cs.CV, cs.IT, cs.LG, math.IT, stat.ML | Trading Information between Latents in Hierarchical Variational Autoencoders はコメントを受け付けていません

One-shot Visual Imitation via Attributed Waypoints and Demonstration Augmentation

要約 この論文では、既存の手法の動作を分析し、ワンショットの視覚的模倣の問題に対 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | One-shot Visual Imitation via Attributed Waypoints and Demonstration Augmentation はコメントを受け付けていません

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

要約 ビジョン エンコーダー (Flamingo など) を使用して事前トレーニ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG | Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning はコメントを受け付けていません

Diverse Human Motion Prediction Guided by Multi-Level Spatial-Temporal Anchors

要約 一連の歴史的なポーズから与えられた多様な人間の動きを予測することは、ますま … 続きを読む

カテゴリー: cs.CV | Diverse Human Motion Prediction Guided by Multi-Level Spatial-Temporal Anchors はコメントを受け付けていません

Polynomial Neural Fields for Subband Decomposition and Manipulation

要約 ニューラル フィールドは、信号を表現するための新しいパラダイムとして登場し … 続きを読む

カテゴリー: cs.CV, cs.LG | Polynomial Neural Fields for Subband Decomposition and Manipulation はコメントを受け付けていません

Learning by Asking for Embodied Visual Navigation and Task Completion

要約 研究コミュニティは、人間がタスクを遂行するのを支援できるインテリジェントな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Learning by Asking for Embodied Visual Navigation and Task Completion はコメントを受け付けていません

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models

要約 拡散確率モデル (DPM) は、高解像度の画像合成において非常に有望な能力 … 続きを読む

カテゴリー: cs.CV, cs.LG | UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models はコメントを受け付けていません