「cs.CV」カテゴリーアーカイブ

LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation

投稿日: 2024年11月8日作成者: jarxiv

要約ニューラルフィールドまたは暗黙的ニューラル表現 (INR) は、画像と … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

HourVideo: 1-Hour Video-Language Understanding

投稿日: 2024年11月8日作成者: jarxiv

要約 1 時間のビデオ言語理解のためのベンチマークデータセットである Hour … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation

投稿日: 2024年11月8日作成者: jarxiv

要約 CLIP は、今日最も重要なマルチモーダル基礎モデルの 1 つです。 CL … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Analyzing The Language of Visual Tokens

投稿日: 2024年11月8日作成者: jarxiv

要約 LLaVA や Chameleon など、視覚および言語タスク用のトランス … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

投稿日: 2024年11月8日作成者: jarxiv

要約最近、ビデオモデリングの進歩により、生成されたビデオ内でカメラの軌道を制 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

投稿日: 2024年11月8日作成者: jarxiv

要約高忠実度の画像合成を超えて、拡散モデルは最近、密な視覚認識タスクにおいて有 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing

投稿日: 2024年11月8日作成者: jarxiv

要約この文書では、ProEdit を提案します。ProEdit は、新しい進歩 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

投稿日: 2024年11月8日作成者: jarxiv

要約拡散モデルは、高品質の画像を生成するのに非常に効果的であることが証明されて … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting

投稿日: 2024年11月8日作成者: jarxiv

要約この論文では、GS2Pose と呼ばれる、新しいオブジェクトの正確かつロバ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction

投稿日: 2024年11月8日作成者: jarxiv

要約 SPAD アレイなどの Quanta イメージセンサーは、数ナノ秒という … 続きを読む →

カテゴリー: 68T45, cs.CV, cs.LG, eess.IV, I.2.10 | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation

HourVideo: 1-Hour Video-Language Understanding

LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation

Analyzing The Language of Visual Tokens

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing

SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting

bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction

最近の投稿

最近のコメント

アーカイブ

カテゴリー