-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator
要約 マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上し … 続きを読む
FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers
要約 拡散モデル(DM)は、テキストからイメージまでの視覚生成プロセスに革命をも … 続きを読む
カテゴリー: cs.CV
FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers はコメントを受け付けていません
EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining
要約 エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む
Toward task-driven satellite image super-resolution
要約 超解像度は、低解像度の観測から高解像度の画像を再構築することを目的としてい … 続きを読む
カテゴリー: cs.CV
Toward task-driven satellite image super-resolution はコメントを受け付けていません
Cube: A Roblox View of 3D Intelligence
要約 膨大な量のデータで訓練された基礎モデルは、テキスト、画像、オーディオ、ビデ … 続きを読む
カテゴリー: cs.CV
Cube: A Roblox View of 3D Intelligence はコメントを受け付けていません
SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
要約 計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行っ … 続きを読む
TULIP: Towards Unified Language-Image Pretraining
要約 ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にも … 続きを読む
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
要約 創造性は知性の基本的な側面であり、多様なコンテキスト全体で斬新で適切なソリ … 続きを読む
カテゴリー: cs.CV
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM はコメントを受け付けていません
DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies
要約 視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰 … 続きを読む
State Space Model Meets Transformer: A New Paradigm for 3D Object Detection
要約 マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良 … 続きを読む