cs.CV」カテゴリーアーカイブ

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

要約 生成AIの増加に伴い、テキストキャプションからの合成図は説得力のあるアプリ … 続きを読む

カテゴリー: cs.CL, cs.CV | TikZero: Zero-Shot Text-Guided Graphics Program Synthesis はコメントを受け付けていません

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

要約 多様なロボットデータセットでトレーニングされた最近のビジョン言語アクション … 続きを読む

カテゴリー: cs.CV, cs.RO | Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy はコメントを受け付けていません

Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models

要約 網膜の光コヒーレンス断層撮影(OCT)画像は、有病率が上昇している神経変性 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models はコメントを受け付けていません

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

要約 テキストからビデオへの生成は、動画データの固有の複雑さにより、重大な課題を … 続きを読む

カテゴリー: cs.AI, cs.CV | HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models はコメントを受け付けていません

Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models

要約 現在のクロスモダリティ生成モデル(GMS)は、さまざまな生成タスクで顕著な … 続きを読む

カテゴリー: cs.CL, cs.CV | Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models はコメントを受け付けていません

AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery

要約 密接な世界の仮定によって制約されている従来の半教師の学習パラダイムとは異な … 続きを読む

カテゴリー: cs.AI, cs.CV | AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery はコメントを受け付けていません

FLASHμ: Fast Localizing And Sizing of Holographic Microparticles

要約 回折画像からの微粒子の3D位置とサイズの再構築 – ホログラム … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, physics.ao-ph, physics.optics | FLASHμ: Fast Localizing And Sizing of Holographic Microparticles はコメントを受け付けていません

AugGen: Synthetic Augmentation Can Improve Discriminative Models

要約 機械学習における大規模なデータセットへの依存の増加は、大きなプライバシーと … 続きを読む

カテゴリー: cs.CV | AugGen: Synthetic Augmentation Can Improve Discriminative Models はコメントを受け付けていません

Training Noise Token Pruning

要約 現在の作業では、視覚変圧器のトレーニングノイズトークン(TNT)剪定を提示 … 続きを読む

カテゴリー: cs.CV | Training Noise Token Pruning はコメントを受け付けていません

Similarity-Aware Token Pruning: Your VLM but Faster

要約 視覚変圧器(VITS)およびビジョン言語モデル(VLM)の計算需要は、自己 … 続きを読む

カテゴリー: cs.CV | Similarity-Aware Token Pruning: Your VLM but Faster はコメントを受け付けていません