cs.CV」カテゴリーアーカイブ

Spatially Visual Perception for End-to-End Robotic Learning

要約 模倣学習の最近の進歩により、ロボット制御と身体化された知能が大いに期待でき … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Spatially Visual Perception for End-to-End Robotic Learning はコメントを受け付けていません

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

要約 ビデオ バリエーション オートエンコーダ (VAE) はビデオを低次元の潜 … 続きを読む

カテゴリー: cs.AI, cs.CV | WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model はコメントを受け付けていません

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

要約 グラフィカル ユーザー インターフェイス (GUI) アシスタントの構築は … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | ShowUI: One Vision-Language-Action Model for GUI Visual Agent はコメントを受け付けていません

Puzzle Similarity: A Perceptually-guided No-Reference Metric for Artifact Detection in 3D Scene Reconstructions

要約 最新の再構成技術を使用すると、まばらな 2D ビューから複雑な 3D シー … 続きを読む

カテゴリー: 68T07, 68T10, 68T45, cs.AI, cs.CV, cs.GR, cs.LG, I.2 | Puzzle Similarity: A Perceptually-guided No-Reference Metric for Artifact Detection in 3D Scene Reconstructions はコメントを受け付けていません

LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions

要約 制御可能なテキストから画像への生成は、特定の条件で画像内のビジュアル テキ … 続きを読む

カテゴリー: cs.AI, cs.CV | LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions はコメントを受け付けていません

What’s in the Image? A Deep-Dive into the Vision of Vision Language Models

要約 視覚言語モデル (VLM) は最近、複雑な視覚コンテンツを理解する際に優れ … 続きを読む

カテゴリー: cs.AI, cs.CV | What’s in the Image? A Deep-Dive into the Vision of Vision Language Models はコメントを受け付けていません

TrackPGD: Efficient Adversarial Attack using Object Binary Masks against Robust Transformer Trackers

要約 敵対的な摂動は、入力に小さな知覚できないノイズを追加することにより、ニュー … 続きを読む

カテゴリー: cs.CV | TrackPGD: Efficient Adversarial Attack using Object Binary Masks against Robust Transformer Trackers はコメントを受け付けていません

Perceptually Optimized Super Resolution

要約 最新のディープラーニング ベースの超解像度技術は、基礎となるコンテンツや表 … 続きを読む

カテゴリー: 68T07, 68T10, 68T45, cs.CV, cs.GR, cs.LG, I.2 | Perceptually Optimized Super Resolution はコメントを受け付けていません

SuperMat: Physically Consistent PBR Material Estimation at Interactive Rates

要約 画像から物理ベースのマテリアルをその構成プロパティに分解することは、特に計 … 続きを読む

カテゴリー: cs.CV | SuperMat: Physically Consistent PBR Material Estimation at Interactive Rates はコメントを受け付けていません

On Statistical Rates of Conditional Diffusion Transformers: Approximation, Estimation and Minimax Optimality

要約 分類器を使用しないガイダンスを使用して、条件付き拡散変換器 (DiT) の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | On Statistical Rates of Conditional Diffusion Transformers: Approximation, Estimation and Minimax Optimality はコメントを受け付けていません