「cs.CV」カテゴリーアーカイブ

Spatially Visual Perception for End-to-End Robotic Learning

投稿日: 2024年11月27日作成者: jarxiv

要約模倣学習の最近の進歩により、ロボット制御と身体化された知能が大いに期待でき … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

投稿日: 2024年11月27日作成者: jarxiv

要約ビデオバリエーションオートエンコーダ (VAE) はビデオを低次元の潜 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

投稿日: 2024年11月27日作成者: jarxiv

要約グラフィカルユーザーインターフェイス (GUI) アシスタントの構築は … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | コメントを受け付けていません

Puzzle Similarity: A Perceptually-guided No-Reference Metric for Artifact Detection in 3D Scene Reconstructions

投稿日: 2024年11月27日作成者: jarxiv

要約最新の再構成技術を使用すると、まばらな 2D ビューから複雑な 3D シー … 続きを読む →

カテゴリー: 68T07, 68T10, 68T45, cs.AI, cs.CV, cs.GR, cs.LG, I.2 | コメントを受け付けていません

LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions

投稿日: 2024年11月27日作成者: jarxiv

要約制御可能なテキストから画像への生成は、特定の条件で画像内のビジュアルテキ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

What’s in the Image? A Deep-Dive into the Vision of Vision Language Models

投稿日: 2024年11月27日作成者: jarxiv

要約視覚言語モデル (VLM) は最近、複雑な視覚コンテンツを理解する際に優れ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

TrackPGD: Efficient Adversarial Attack using Object Binary Masks against Robust Transformer Trackers

投稿日: 2024年11月27日作成者: jarxiv

要約敵対的な摂動は、入力に小さな知覚できないノイズを追加することにより、ニュー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Perceptually Optimized Super Resolution

投稿日: 2024年11月27日作成者: jarxiv

要約最新のディープラーニングベースの超解像度技術は、基礎となるコンテンツや表 … 続きを読む →

カテゴリー: 68T07, 68T10, 68T45, cs.CV, cs.GR, cs.LG, I.2 | コメントを受け付けていません

SuperMat: Physically Consistent PBR Material Estimation at Interactive Rates

投稿日: 2024年11月27日作成者: jarxiv

要約画像から物理ベースのマテリアルをその構成プロパティに分解することは、特に計 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

On Statistical Rates of Conditional Diffusion Transformers: Approximation, Estimation and Minimax Optimality

投稿日: 2024年11月27日作成者: jarxiv

要約分類器を使用しないガイダンスを使用して、条件付き拡散変換器 (DiT) の … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Spatially Visual Perception for End-to-End Robotic Learning

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Puzzle Similarity: A Perceptually-guided No-Reference Metric for Artifact Detection in 3D Scene Reconstructions

LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions

What’s in the Image? A Deep-Dive into the Vision of Vision Language Models

TrackPGD: Efficient Adversarial Attack using Object Binary Masks against Robust Transformer Trackers

Perceptually Optimized Super Resolution

SuperMat: Physically Consistent PBR Material Estimation at Interactive Rates

On Statistical Rates of Conditional Diffusion Transformers: Approximation, Estimation and Minimax Optimality

最近の投稿

最近のコメント

アーカイブ

カテゴリー