cs.CV」カテゴリーアーカイブ

Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models

要約 Foundation Vision Language Models (VL … 続きを読む

カテゴリー: cs.CV, cs.RO | Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models はコメントを受け付けていません

Editing Implicit and Explicit Representations of Radiance Fields: A Survey

要約 Neural Radiance Fields (NeRF) は、コンパクト … 続きを読む

カテゴリー: cs.CV | Editing Implicit and Explicit Representations of Radiance Fields: A Survey はコメントを受け付けていません

Detail-Preserving Latent Diffusion for Stable Shadow Removal

要約 複雑なグローバル イルミネーションのあるシーンでは、強力な汎用性を備えた高 … 続きを読む

カテゴリー: cs.CV | Detail-Preserving Latent Diffusion for Stable Shadow Removal はコメントを受け付けていません

ANID: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance

要約 急速に進化する人工知能生成コンテンツ (AIGC) の分野における重要な課 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | ANID: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance はコメントを受け付けていません

Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

要約 Text-to-Image(TTI)生成モデルは目覚ましい成功を収めている … 続きを読む

カテゴリー: cs.AI, cs.CV | Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering はコメントを受け付けていません

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

要約 3D シーンを理解するためにガウス スプラッティングを知覚タスクに適用する … 続きを読む

カテゴリー: cs.CV | LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding はコメントを受け付けていません

SCBench: A Sports Commentary Benchmark for Video LLMs

要約 最近、学術界と産業界の両方でビデオ大規模言語モデル (ビデオ LLM) が … 続きを読む

カテゴリー: cs.AI, cs.CV | SCBench: A Sports Commentary Benchmark for Video LLMs はコメントを受け付けていません

Hierarchical Vector Quantization for Unsupervised Action Segmentation

要約 この研究では、教師なし時間アクション セグメンテーションに取り組みます。こ … 続きを読む

カテゴリー: cs.CV | Hierarchical Vector Quantization for Unsupervised Action Segmentation はコメントを受け付けていません

DreamFit: Garment-Centric Human Generation via a Lightweight Anything-Dressing Encoder

要約 テキストまたは画像プロンプトから衣服を中心とした人間を生成するための拡散モ … 続きを読む

カテゴリー: cs.CV | DreamFit: Garment-Centric Human Generation via a Lightweight Anything-Dressing Encoder はコメントを受け付けていません

Enhanced Temporal Processing in Spiking Neural Networks for Static Object Detection Using 3D Convolutions

要約 スパイキング ニューラル ネットワーク (SNN) は、時空間情報を処理で … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.NE | Enhanced Temporal Processing in Spiking Neural Networks for Static Object Detection Using 3D Convolutions はコメントを受け付けていません