cs.CV」カテゴリーアーカイブ

Task Success Prediction and Open-Vocabulary Object Manipulation

要約 この研究は、オープン語彙オブジェクト操作の将来の成功または失敗を予測するよ … 続きを読む

カテゴリー: cs.CV, cs.RO | Task Success Prediction and Open-Vocabulary Object Manipulation はコメントを受け付けていません

SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control

要約 自動運転の進歩は、大規模な注釈付きデータセットに依存しています。 この研究 … 続きを読む

カテゴリー: cs.CV, cs.RO | SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control はコメントを受け付けていません

LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction

要約 フォトリアリスティックな 3D シーンの再構築は自動運転において重要な役割 … 続きを読む

カテゴリー: cs.CV, cs.RO | LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction はコメントを受け付けていません

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning

要約 取得したデータを使用した最近の軽量画像キャプション モデルは、主にテキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning はコメントを受け付けていません

LMFusion: Adapting Pretrained Language Models for Multimodal Generation

要約 LMFusion は、事前トレーニング済みのテキスト専用大規模言語モデル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | LMFusion: Adapting Pretrained Language Models for Multimodal Generation はコメントを受け付けていません

World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models

要約 言語単位を物理世界の指示対象に接続する能力 (グラウンディングと呼ばれます … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models はコメントを受け付けていません

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

要約 大規模ビジョン言語モデル (LVLM) は、大規模言語モデル (LLM) … 続きを読む

カテゴリー: cs.CL, cs.CV | Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence はコメントを受け付けていません

Dust to Tower: Coarse-to-Fine Photo-Realistic Scene Reconstruction from Sparse Uncalibrated Images

要約 実際には、まばらなビューのキャリブレーションされていない画像から写真のよう … 続きを読む

カテゴリー: cs.CV | Dust to Tower: Coarse-to-Fine Photo-Realistic Scene Reconstruction from Sparse Uncalibrated Images はコメントを受け付けていません

Attribution for Enhanced Explanation with Transferable Adversarial eXploration

要約 ディープ ニューラル ネットワークの解釈可能性は、コンピューター ビジョン … 続きを読む

カテゴリー: cs.AI, cs.CV | Attribution for Enhanced Explanation with Transferable Adversarial eXploration はコメントを受け付けていません

Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering

要約 最近の実証研究では、拡散モデルが画像分布を効果的に学習し、新しいサンプルを … 続きを読む

カテゴリー: cs.CV, cs.LG | Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering はコメントを受け付けていません