月別アーカイブ: 2024年1月

On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets

要約 マルチモーダル命令チューニングに関する新たな一連の研究が行われており、最近 … 続きを読む

カテゴリー: cs.CV | On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets はコメントを受け付けていません

Aleth-NeRF: Low-light Condition View Synthesis with Concealing Fields

要約 一般的な低照度シーンのキャプチャは、Neural Radiance Fie … 続きを読む

カテゴリー: cs.CV | Aleth-NeRF: Low-light Condition View Synthesis with Concealing Fields はコメントを受け付けていません

PCR-CG: Point Cloud Registration via Deep Explicit Color and Geometry

要約 この論文では、PCR-CG を紹介します。これは、ジオメトリ表現に色信号を … 続きを読む

カテゴリー: cs.CV | PCR-CG: Point Cloud Registration via Deep Explicit Color and Geometry はコメントを受け付けていません

Energy-Based Sliced Wasserstein Distance

要約 スライスされたワッサースタイン (SW) 距離は、2 つの確率尺度間の統計 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, stat.ML | Energy-Based Sliced Wasserstein Distance はコメントを受け付けていません

Edit Temporal-Consistent Videos with Image Diffusion Model

要約 大規模なテキストから画像への (T2I) 拡散モデルがテキストガイド付きビ … 続きを読む

カテゴリー: cs.CV | Edit Temporal-Consistent Videos with Image Diffusion Model はコメントを受け付けていません

Dual-Stream Diffusion Net for Text-to-Video Generation

要約 新たな普及モデルの登場により、最近ではテキストからビデオへの生成がますます … 続きを読む

カテゴリー: cs.CV | Dual-Stream Diffusion Net for Text-to-Video Generation はコメントを受け付けていません

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

要約 モバイル デバイス上で実行することを目的とした有能なマルチモーダル ビジョ … 続きを読む

カテゴリー: cs.CV | MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices はコメントを受け付けていません

A Survey on Super Resolution for video Enhancement Using GAN

要約 さまざまな研究論文のハイライトをまとめたこの本は、敵対的生成ネットワークな … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | A Survey on Super Resolution for video Enhancement Using GAN はコメントを受け付けていません

LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition

要約 場所認識は、自動運転車が GPS が無効な環境で以前に訪れた場所を識別する … 続きを読む

カテゴリー: cs.CV, cs.RO | LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition はコメントを受け付けていません

Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding

要約 近年、ビューベースの 3D 形状認識手法の結果は飽和しており、パラメーター … 続きを読む

カテゴリー: 68, cs.AI, cs.CV, I.2.10 | Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding はコメントを受け付けていません