「cs.CV」カテゴリーアーカイブ

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

投稿日: 2025年3月20日作成者: jarxiv

要約マスクされた拡散モデル（MDMS）は、強力な生成モデリング手法として浮上し … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers

投稿日: 2025年3月20日作成者: jarxiv

要約拡散モデル（DM）は、テキストからイメージまでの視覚生成プロセスに革命をも … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

投稿日: 2025年3月20日作成者: jarxiv

要約エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Toward task-driven satellite image super-resolution

投稿日: 2025年3月20日作成者: jarxiv

要約超解像度は、低解像度の観測から高解像度の画像を再構築することを目的としてい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cube: A Roblox View of 3D Intelligence

投稿日: 2025年3月20日作成者: jarxiv

要約膨大な量のデータで訓練された基礎モデルは、テキスト、画像、オーディオ、ビデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

投稿日: 2025年3月20日作成者: jarxiv

要約計算病理学においてマルチモーダルラージランゲージモデル（MLLMS）が行っ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

TULIP: Towards Unified Language-Image Pretraining

投稿日: 2025年3月20日作成者: jarxiv

要約 ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にも … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

投稿日: 2025年3月20日作成者: jarxiv

要約創造性は知性の基本的な側面であり、多様なコンテキスト全体で斬新で適切なソリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

投稿日: 2025年3月20日作成者: jarxiv

要約視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

投稿日: 2025年3月20日作成者: jarxiv

要約マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

Toward task-driven satellite image super-resolution

Cube: A Roblox View of 3D Intelligence

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

TULIP: Towards Unified Language-Image Pretraining

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

最近の投稿

最近のコメント

アーカイブ

カテゴリー