「cs.CV」カテゴリーアーカイブ

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

投稿日: 2025年3月17日作成者: jarxiv

要約生成AIの増加に伴い、テキストキャプションからの合成図は説得力のあるアプリ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

投稿日: 2025年3月17日作成者: jarxiv

要約多様なロボットデータセットでトレーニングされた最近のビジョン言語アクション … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models

投稿日: 2025年3月17日作成者: jarxiv

要約網膜の光コヒーレンス断層撮影（OCT）画像は、有病率が上昇している神経変性 … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

投稿日: 2025年3月17日作成者: jarxiv

要約テキストからビデオへの生成は、動画データの固有の複雑さにより、重大な課題を … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models

投稿日: 2025年3月17日作成者: jarxiv

要約現在のクロスモダリティ生成モデル（GMS）は、さまざまな生成タスクで顕著な … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery

投稿日: 2025年3月17日作成者: jarxiv

要約密接な世界の仮定によって制約されている従来の半教師の学習パラダイムとは異な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FLASHμ: Fast Localizing And Sizing of Holographic Microparticles

投稿日: 2025年3月17日作成者: jarxiv

要約回折画像からの微粒子の3D位置とサイズの再構築 – ホログラム … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, physics.ao-ph, physics.optics | コメントを受け付けていません

AugGen: Synthetic Augmentation Can Improve Discriminative Models

投稿日: 2025年3月17日作成者: jarxiv

要約機械学習における大規模なデータセットへの依存の増加は、大きなプライバシーと … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Training Noise Token Pruning

投稿日: 2025年3月17日作成者: jarxiv

要約現在の作業では、視覚変圧器のトレーニングノイズトークン（TNT）剪定を提示 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Similarity-Aware Token Pruning: Your VLM but Faster

投稿日: 2025年3月17日作成者: jarxiv

要約視覚変圧器（VITS）およびビジョン言語モデル（VLM）の計算需要は、自己 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models

AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery

FLASHμ: Fast Localizing And Sizing of Holographic Microparticles

AugGen: Synthetic Augmentation Can Improve Discriminative Models

Training Noise Token Pruning

Similarity-Aware Token Pruning: Your VLM but Faster

最近の投稿

最近のコメント

アーカイブ

カテゴリー