cs.CV」カテゴリーアーカイブ

LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation

要約 ニューラル フィールドまたは暗黙的ニューラル表現 (INR) は、画像と … 続きを読む

カテゴリー: cs.CV, cs.LG | LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation はコメントを受け付けていません

HourVideo: 1-Hour Video-Language Understanding

要約 1 時間のビデオ言語理解のためのベンチマーク データセットである Hour … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | HourVideo: 1-Hour Video-Language Understanding はコメントを受け付けていません

LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation

要約 CLIP は、今日最も重要なマルチモーダル基礎モデルの 1 つです。 CL … 続きを読む

カテゴリー: cs.CL, cs.CV | LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation はコメントを受け付けていません

Analyzing The Language of Visual Tokens

要約 LLaVA や Chameleon など、視覚および言語タスク用のトランス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Analyzing The Language of Visual Tokens はコメントを受け付けていません

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

要約 最近、ビデオ モデリングの進歩により、生成されたビデオ内でカメラの軌道を制 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning はコメントを受け付けていません

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

要約 高忠実度の画像合成を超えて、拡散モデルは最近、密な視覚認識タスクにおいて有 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models はコメントを受け付けていません

ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing

要約 この文書では、ProEdit を提案します。ProEdit は、新しい進歩 … 続きを読む

カテゴリー: cs.CV | ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing はコメントを受け付けていません

SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

要約 拡散モデルは、高品質の画像を生成するのに非常に効果的であることが証明されて … 続きを読む

カテゴリー: cs.CV, cs.LG | SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models はコメントを受け付けていません

GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting

要約 この論文では、GS2Pose と呼ばれる、新しいオブジェクトの正確かつロバ … 続きを読む

カテゴリー: cs.AI, cs.CV | GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting はコメントを受け付けていません

bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction

要約 SPAD アレイなどの Quanta イメージ センサーは、数ナノ秒という … 続きを読む

カテゴリー: 68T45, cs.CV, cs.LG, eess.IV, I.2.10 | bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction はコメントを受け付けていません