月別アーカイブ: 2024年2月

NeRF Analogies: Example-Based Visual Attribute Transfer for NeRFs

投稿日: 2024年2月14日作成者: jarxiv

要約 Neural Radiance Field (NeRF) は、3D ジオメ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Vision-Language Models Provide Promptable Representations for Reinforcement Learning

投稿日: 2024年2月14日作成者: jarxiv

要約人間は背景世界の知識を活用することで、新しい行動を素早く学習できます。対 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

BdSLW60: A Word-Level Bangla Sign Language Dataset

投稿日: 2024年2月14日作成者: jarxiv

要約手話による会話は、聴覚障害者にとって日常のコミュニケーションに不可欠な手段 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learned Image Compression with Text Quality Enhancement

投稿日: 2024年2月14日作成者: jarxiv

要約学習された画像圧縮は、超低ビットレートを効率的に達成できるため、広く普及し … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Peeking Behind the Curtains of Residual Learning

投稿日: 2024年2月14日作成者: jarxiv

要約残差学習の利用は、深くてスケーラブルなニューラルネットワークで広く普及し … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Learning Continuous 3D Words for Text-to-Image Generation

投稿日: 2024年2月14日作成者: jarxiv

要約画像生成のための拡散モデルに対する現在の制御（テキストや ControlN … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs

投稿日: 2024年2月14日作成者: jarxiv

要約 Flamingo や GPT-4V などのビジョン言語モデル (VLM) … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Are Semi-Dense Detector-Free Methods Good at Matching Local Features?

投稿日: 2024年2月14日作成者: jarxiv

要約 LoFTR などの準高密度検出器を使用しないアプローチ (SDF) は、現 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance

投稿日: 2024年2月14日作成者: jarxiv

要約 Large Vision-Language Model (LVLM) の進 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

投稿日: 2024年2月14日作成者: jarxiv

要約ほとんどの text-to-image ジェネレーターは、数十億の画像でト … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年2月

NeRF Analogies: Example-Based Visual Attribute Transfer for NeRFs

Vision-Language Models Provide Promptable Representations for Reinforcement Learning

BdSLW60: A Word-Level Bangla Sign Language Dataset

Learned Image Compression with Text Quality Enhancement

Peeking Behind the Curtains of Residual Learning

Learning Continuous 3D Words for Text-to-Image Generation

PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs

Are Semi-Dense Detector-Free Methods Good at Matching Local Features?

Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー