月別アーカイブ: 2024年4月

MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection

投稿日: 2024年4月12日作成者: jarxiv

要約異常検出における最近の進歩により、CNN およびトランスフォーマーベース … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Context-aware Video Anomaly Detection in Long-Term Datasets

投稿日: 2024年4月12日作成者: jarxiv

要約ビデオ異常検出の研究は通常、わずか数分の短い独立したベンチマークビデオで … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EgoGen: An Egocentric Synthetic Data Generator

投稿日: 2024年4月12日作成者: jarxiv

要約一人称視点で世界を理解することは、拡張現実 (AR) の基本です。この没 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Low-Resource Vision Challenges for Foundation Models

投稿日: 2024年4月12日作成者: jarxiv

要約自然言語処理では低リソース設定が確立されており、多くの言語では大規模な深層 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LaVy: Vietnamese Multimodal Large Language Model

投稿日: 2024年4月12日作成者: jarxiv

要約大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification

投稿日: 2024年4月12日作成者: jarxiv

要約可視赤外線人物再識別 (VI-reID) は、別々の可視カメラまたは赤外線 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FusionMamba: Efficient Image Fusion with State Space Model

投稿日: 2024年4月12日作成者: jarxiv

要約画像融合は、スペクトル情報が限られた高解像度画像と豊富なスペクトルデータを … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation

投稿日: 2024年4月12日作成者: jarxiv

要約 Structure from Motion を介して画像からシーンのジオメ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Taming Stable Diffusion for Text to 360° Panorama Image Generation

投稿日: 2024年4月12日作成者: jarxiv

要約安定拡散などの生成モデルにより、テキストプロンプトからフォトリアリスティ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

投稿日: 2024年4月12日作成者: jarxiv

要約 Ferret は、地域の理解を大規模言語モデル (LLM) にシームレスに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection

Context-aware Video Anomaly Detection in Long-Term Datasets

EgoGen: An Egocentric Synthetic Data Generator

Low-Resource Vision Challenges for Foundation Models

LaVy: Vietnamese Multimodal Large Language Model

Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification

FusionMamba: Efficient Image Fusion with State Space Model

Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation

Taming Stable Diffusion for Text to 360° Panorama Image Generation

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー