月別アーカイブ: 2024年1月

On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets

投稿日: 2024年1月2日作成者: jarxiv

要約マルチモーダル命令チューニングに関する新たな一連の研究が行われており、最近 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Aleth-NeRF: Low-light Condition View Synthesis with Concealing Fields

投稿日: 2024年1月2日作成者: jarxiv

要約一般的な低照度シーンのキャプチャは、Neural Radiance Fie … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PCR-CG: Point Cloud Registration via Deep Explicit Color and Geometry

投稿日: 2024年1月2日作成者: jarxiv

要約この論文では、PCR-CG を紹介します。これは、ジオメトリ表現に色信号を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Energy-Based Sliced Wasserstein Distance

投稿日: 2024年1月2日作成者: jarxiv

要約スライスされたワッサースタイン (SW) 距離は、2 つの確率尺度間の統計 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG, stat.ML | コメントを受け付けていません

Edit Temporal-Consistent Videos with Image Diffusion Model

投稿日: 2024年1月2日作成者: jarxiv

要約大規模なテキストから画像への (T2I) 拡散モデルがテキストガイド付きビ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Dual-Stream Diffusion Net for Text-to-Video Generation

投稿日: 2024年1月2日作成者: jarxiv

要約新たな普及モデルの登場により、最近ではテキストからビデオへの生成がますます … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

投稿日: 2024年1月2日作成者: jarxiv

要約モバイルデバイス上で実行することを目的とした有能なマルチモーダルビジョ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Survey on Super Resolution for video Enhancement Using GAN

投稿日: 2024年1月2日作成者: jarxiv

要約さまざまな研究論文のハイライトをまとめたこの本は、敵対的生成ネットワークな … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition

投稿日: 2024年1月2日作成者: jarxiv

要約場所認識は、自動運転車が GPS が無効な環境で以前に訪れた場所を識別する … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding

投稿日: 2024年1月2日作成者: jarxiv

要約近年、ビューベースの 3D 形状認識手法の結果は飽和しており、パラメーター … 続きを読む →

カテゴリー: 68, cs.AI, cs.CV, I.2.10 | コメントを受け付けていません

月別アーカイブ: 2024年1月

On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets

Aleth-NeRF: Low-light Condition View Synthesis with Concealing Fields

PCR-CG: Point Cloud Registration via Deep Explicit Color and Geometry

Energy-Based Sliced Wasserstein Distance

Edit Temporal-Consistent Videos with Image Diffusion Model

Dual-Stream Diffusion Net for Text-to-Video Generation

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

A Survey on Super Resolution for video Enhancement Using GAN

LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition

Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding

最近の投稿

最近のコメント

アーカイブ

カテゴリー