cs.CV」カテゴリーアーカイブ

EndoMetric: Near-Light Monocular Metric Scale Estimation in Endoscopy

要約 幾何学的な再構築と内視鏡画像によるスラムは、近年大幅に進歩しています。 ほ … 続きを読む

カテゴリー: cs.CV | EndoMetric: Near-Light Monocular Metric Scale Estimation in Endoscopy はコメントを受け付けていません

MAGI-1: Autoregressive Video Generation at Scale

要約 連続したフレームの固定長セグメントとして定義された一連のビデオチャンクを自 … 続きを読む

カテゴリー: cs.AI, cs.CV | MAGI-1: Autoregressive Video Generation at Scale はコメントを受け付けていません

RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes

要約 建設、改修、解体などの道路や橋の変化の正確な検出は、都市計画と交通管理に不 … 続きを読む

カテゴリー: cs.CV | RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes はコメントを受け付けていません

Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

要約 動的な3Dシーンの再構築における最近の進歩により、有望な結果が示されており … 続きを読む

カテゴリー: cs.CV | Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation はコメントを受け付けていません

Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

要約 拡散変圧器(DITS)は、変圧器アーキテクチャの組み込みを通じて、画像生成 … 続きを読む

カテゴリー: cs.CV | Swin DiT: Diffusion Transformer using Pseudo Shifted Windows はコメントを受け付けていません

Automatic Complementary Separation Pruning Toward Lightweight CNNs

要約 この論文では、畳み込みニューラルネットワークのための新規で完全に自動化され … 続きを読む

カテゴリー: cs.CV | Automatic Complementary Separation Pruning Toward Lightweight CNNs はコメントを受け付けていません

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

要約 グラフィカルユーザーインターフェイス(GUI)の接地、グラフィカルユーザー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis はコメントを受け付けていません

StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

要約 データからの堅牢な表現を学習するには、多くの場合、スケールが必要であり、ク … 続きを読む

カテゴリー: cs.AI, cs.CV | StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment はコメントを受け付けていません

From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection

要約 例えば、クリップ、例えば、下流のタスクで印象的なゼロショット機能を示します … 続きを読む

カテゴリー: cs.CV | From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection はコメントを受け付けていません

WriteViT: Handwritten Text Generation with Vision Transformer

要約 人間は、コンテンツをスタイルから直感的に分離することにより、単一の例から手 … 続きを読む

カテゴリー: cs.CV, cs.LG | WriteViT: Handwritten Text Generation with Vision Transformer はコメントを受け付けていません