月別アーカイブ: 2024年6月

Score Distillation via Reparametrized DDIM

投稿日: 2024年6月14日作成者: jarxiv

要約 2D 拡散モデルはリアルで詳細な画像を生成しますが、これらの 2D 拡散モ … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset

投稿日: 2024年6月14日作成者: jarxiv

要約大規模なデータセットは、AI ベースの自動運転車研究の最近の進歩を促進して … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Reflecting on the State of Rehearsal-free Continual Learning with Pretrained Models

投稿日: 2024年6月14日作成者: jarxiv

要約基礎モデルの出現と最近の普及により、継続学習 (CL) は最近、ゼロからの … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Towards Vision-Language Geo-Foundation Model: A Survey

投稿日: 2024年6月14日作成者: jarxiv

要約視覚言語基盤モデル (VLFM) は、画像キャプション、画像とテキストの検 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SimGen: Simulator-conditioned Driving Scene Generation

投稿日: 2024年6月14日作成者: jarxiv

要約制御可能な合成データ生成により、自動運転の研究開発におけるトレーニングデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition

投稿日: 2024年6月14日作成者: jarxiv

要約 CLIP などの視覚および言語モデル (VLM) は、驚くべきゼロショット … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Sagiri: Low Dynamic Range Image Enhancement with Generative Diffusion Prior

投稿日: 2024年6月14日作成者: jarxiv

要約 8 ビットカメラを使用してハイダイナミックレンジ (HDR) 風景を … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

LLAVIDAL: Benchmarking Large Language Vision Models for Daily Activities of Living

投稿日: 2024年6月14日作成者: jarxiv

要約大規模言語視覚モデル (LLVM) は、インターネットビデオの処理におい … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

WonderWorld: Interactive 3D Scene Generation from a Single Image

投稿日: 2024年6月14日作成者: jarxiv

要約私たちは、\emph{interactive} 3D シーン外挿のための新 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Modeling Ambient Scene Dynamics for Free-view Synthesis

投稿日: 2024年6月14日作成者: jarxiv

要約単眼でキャプチャした環境シーンを動的に自由にビュー合成して、視聴体験に没入 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年6月

Score Distillation via Reparametrized DDIM

Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset

Reflecting on the State of Rehearsal-free Continual Learning with Pretrained Models

Towards Vision-Language Geo-Foundation Model: A Survey

SimGen: Simulator-conditioned Driving Scene Generation

Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition

Sagiri: Low Dynamic Range Image Enhancement with Generative Diffusion Prior

LLAVIDAL: Benchmarking Large Language Vision Models for Daily Activities of Living

WonderWorld: Interactive 3D Scene Generation from a Single Image

Modeling Ambient Scene Dynamics for Free-view Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー