cs.CV」カテゴリーアーカイブ

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

要約 マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator はコメントを受け付けていません

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers

要約 拡散モデル(DM)は、テキストからイメージまでの視覚生成プロセスに革命をも … 続きを読む

カテゴリー: cs.CV | FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers はコメントを受け付けていません

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

要約 エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む

カテゴリー: cs.AI, cs.CV | EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining はコメントを受け付けていません

Toward task-driven satellite image super-resolution

要約 超解像度は、低解像度の観測から高解像度の画像を再構築することを目的としてい … 続きを読む

カテゴリー: cs.CV | Toward task-driven satellite image super-resolution はコメントを受け付けていません

Cube: A Roblox View of 3D Intelligence

要約 膨大な量のデータで訓練された基礎モデルは、テキスト、画像、オーディオ、ビデ … 続きを読む

カテゴリー: cs.CV | Cube: A Roblox View of 3D Intelligence はコメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約 計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行っ … 続きを読む

カテゴリー: cs.AI, cs.CV | SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding はコメントを受け付けていません

TULIP: Towards Unified Language-Image Pretraining

要約 ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にも … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | TULIP: Towards Unified Language-Image Pretraining はコメントを受け付けていません

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

要約 創造性は知性の基本的な側面であり、多様なコンテキスト全体で斬新で適切なソリ … 続きを読む

カテゴリー: cs.CV | Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM はコメントを受け付けていません

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

要約 視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰 … 続きを読む

カテゴリー: cs.CL, cs.CV | DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies はコメントを受け付けていません

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

要約 マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良 … 続きを読む

カテゴリー: cs.AI, cs.CV | State Space Model Meets Transformer: A New Paradigm for 3D Object Detection はコメントを受け付けていません