cs.CV」カテゴリーアーカイブ

Near, far: Patch-ordering enhances vision foundation models’ scene understanding

要約 NECO:PATCH Neighbor Consecencyを紹介します。 … 続きを読む

カテゴリー: cs.AI, cs.CV | Near, far: Patch-ordering enhances vision foundation models’ scene understanding はコメントを受け付けていません

Efficient Image-to-Image Diffusion Classifier for Adversarial Robustness

要約 拡散モデル(DM)は、DMベースの防御方法が敵対的な訓練なしで優れた防御能 … 続きを読む

カテゴリー: cs.CV | Efficient Image-to-Image Diffusion Classifier for Adversarial Robustness はコメントを受け付けていません

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

要約 拡散トランス(DIT)は、高品質のビデオのモデリングと生成において顕著なパ … 続きを読む

カテゴリー: cs.CV, cs.DC | DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training はコメントを受け付けていません

YOLO Network For Defect Detection In Optical lenses

要約 大量生産された光レンズは、散乱特性を変え、品質基準を妥協する欠陥を示すこと … 続きを読む

カテゴリー: cs.CV | YOLO Network For Defect Detection In Optical lenses はコメントを受け付けていません

PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning

要約 将来のシーンの表現を予測することは、ロボットが環境を理解して対話できるよう … 続きを読む

カテゴリー: cs.CV, cs.RO | PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning はコメントを受け付けていません

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

要約 ゼロショット異常検出(ZSAD)は、新興広告パラダイムです。 モデルをトレ … 続きを読む

カテゴリー: cs.CL, cs.CV | Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models はコメントを受け付けていません

An Improved Optimal Proximal Gradient Algorithm for Non-Blind Image Deblurring

要約 画像の脱生は、画像処理の中心的な研究分野であり、画像の品質を向上させ、多様 … 続きを読む

カテゴリー: cs.CV, math.OC | An Improved Optimal Proximal Gradient Algorithm for Non-Blind Image Deblurring はコメントを受け付けていません

Generalized Least Squares Kernelized Tensor Factorization

要約 不足しているエントリを備えた多次元テンソル構造データを完成させることは、不 … 続きを読む

カテゴリー: cs.CV, cs.LG, stat.ML | Generalized Least Squares Kernelized Tensor Factorization はコメントを受け付けていません

CoS: Chain-of-Shot Prompting for Long Video Understanding

要約 マルチモーダルの大手言語モデル(MLLM)は、過度の視覚トークンが必要なた … 続きを読む

カテゴリー: cs.CV | CoS: Chain-of-Shot Prompting for Long Video Understanding はコメントを受け付けていません

OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?

要約 専門家レベルのドメインの知識と意図的な認知を要求する全プロセスのOracl … 続きを読む

カテゴリー: cs.AI, cs.CV | OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones? はコメントを受け付けていません