「cs.CV」カテゴリーアーカイブ

Task Success Prediction and Open-Vocabulary Object Manipulation

投稿日: 2024年12月30日作成者: jarxiv

要約この研究は、オープン語彙オブジェクト操作の将来の成功または失敗を予測するよ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control

投稿日: 2024年12月30日作成者: jarxiv

要約自動運転の進歩は、大規模な注釈付きデータセットに依存しています。この研究 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction

投稿日: 2024年12月30日作成者: jarxiv

要約フォトリアリスティックな 3D シーンの再構築は自動運転において重要な役割 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning

投稿日: 2024年12月30日作成者: jarxiv

要約取得したデータを使用した最近の軽量画像キャプションモデルは、主にテキスト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

LMFusion: Adapting Pretrained Language Models for Multimodal Generation

投稿日: 2024年12月30日作成者: jarxiv

要約 LMFusion は、事前トレーニング済みのテキスト専用大規模言語モデル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models

投稿日: 2024年12月30日作成者: jarxiv

要約言語単位を物理世界の指示対象に接続する能力 (グラウンディングと呼ばれます … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

投稿日: 2024年12月30日作成者: jarxiv

要約大規模ビジョン言語モデル (LVLM) は、大規模言語モデル (LLM) … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Dust to Tower: Coarse-to-Fine Photo-Realistic Scene Reconstruction from Sparse Uncalibrated Images

投稿日: 2024年12月30日作成者: jarxiv

要約実際には、まばらなビューのキャリブレーションされていない画像から写真のよう … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Attribution for Enhanced Explanation with Transferable Adversarial eXploration

投稿日: 2024年12月30日作成者: jarxiv

要約ディープニューラルネットワークの解釈可能性は、コンピュータービジョン … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering

投稿日: 2024年12月30日作成者: jarxiv

要約最近の実証研究では、拡散モデルが画像分布を効果的に学習し、新しいサンプルを … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Task Success Prediction and Open-Vocabulary Object Manipulation

SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control

LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning

LMFusion: Adapting Pretrained Language Models for Multimodal Generation

World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

Dust to Tower: Coarse-to-Fine Photo-Realistic Scene Reconstruction from Sparse Uncalibrated Images

Attribution for Enhanced Explanation with Transferable Adversarial eXploration

Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering

最近の投稿

最近のコメント

アーカイブ

カテゴリー