「cs.CV」カテゴリーアーカイブ

TANet: Triplet Attention Network for All-In-One Adverse Weather Image Restoration

投稿日: 2024年10月11日作成者: jarxiv

要約悪天候画像の復元は、悪天候によって引き起こされるかすみ、雨、雪などの望まし … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RGM: Reconstructing High-fidelity 3D Car Assets with Relightable 3D-GS Generative Model from a Single Image

投稿日: 2024年10月11日作成者: jarxiv

要約高品質の 3D 自動車アセットの生成は、ビデオゲーム、自動運転、仮想現実 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

投稿日: 2024年10月11日作成者: jarxiv

要約既存のマルチモーダル検索ベンチマークは、モデルが外部のテキスト知識を取得し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Scaling Laws For Diffusion Transformers

投稿日: 2024年10月11日作成者: jarxiv

要約拡散トランス (DiT) は、画像やビデオの生成など、コンテンツの再作成に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DifFRelight: Diffusion-Based Facial Performance Relighting

投稿日: 2024年10月11日作成者: jarxiv

要約拡散ベースの画像間の変換を使用した、自由視点の顔のパフォーマンスの再照明の … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation

投稿日: 2024年10月11日作成者: jarxiv

要約この論文では、ゼロショットオブジェクトナビゲーションのための新しいフレ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Poison-splat: Computation Cost Attack on 3D Gaussian Splatting

投稿日: 2024年10月11日作成者: jarxiv

要約画期的なパフォーマンスと効率性で知られる 3D ガウススプラッティング … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation

投稿日: 2024年10月11日作成者: jarxiv

要約テキストから画像への拡散モデルの最近の進歩により、テキストのプロンプトによ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

投稿日: 2024年10月11日作成者: jarxiv

要約コードは、その精度と精度により、大規模な言語モデルの数学的推論能力を強化す … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models

投稿日: 2024年10月11日作成者: jarxiv

要約 CLIP のような対照的視覚言語モデル (VLM) は、さまざまな下流タス … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

TANet: Triplet Attention Network for All-In-One Adverse Weather Image Restoration

RGM: Reconstructing High-fidelity 3D Car Assets with Relightable 3D-GS Generative Model from a Single Image

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

Scaling Laws For Diffusion Transformers

DifFRelight: Diffusion-Based Facial Performance Relighting

SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation

Poison-splat: Computation Cost Attack on 3D Gaussian Splatting

HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation

MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー