投稿者「jarxiv」のアーカイブ

Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

投稿日: 2025年5月20日作成者: jarxiv

要約動的な3Dシーンの再構築における最近の進歩により、有望な結果が示されており … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

投稿日: 2025年5月20日作成者: jarxiv

要約拡散変圧器（DITS）は、変圧器アーキテクチャの組み込みを通じて、画像生成 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Automatic Complementary Separation Pruning Toward Lightweight CNNs

投稿日: 2025年5月20日作成者: jarxiv

要約この論文では、畳み込みニューラルネットワークのための新規で完全に自動化され … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

投稿日: 2025年5月20日作成者: jarxiv

要約グラフィカルユーザーインターフェイス（GUI）の接地、グラフィカルユーザー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | コメントを受け付けていません

StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

投稿日: 2025年5月20日作成者: jarxiv

要約データからの堅牢な表現を学習するには、多くの場合、スケールが必要であり、ク … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection

投稿日: 2025年5月20日作成者: jarxiv

要約例えば、クリップ、例えば、下流のタスクで印象的なゼロショット機能を示します … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

WriteViT: Handwritten Text Generation with Vision Transformer

投稿日: 2025年5月20日作成者: jarxiv

要約人間は、コンテンツをスタイルから直感的に分離することにより、単一の例から手 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Captured by Captions: On Memorization and its Mitigation in CLIP Models

投稿日: 2025年5月20日作成者: jarxiv

要約クリップなどのマルチモーダルモデルは、画像検索やゼロショット分類などのタス … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

JetFormer: An Autoregressive Generative Model of Raw Images and Text

投稿日: 2025年5月20日作成者: jarxiv

要約モデリングの制約を削除し、ドメイン全体でアーキテクチャを統合することは、大 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning

投稿日: 2025年5月20日作成者: jarxiv

要約大きなビジョン言語モデル（LVLMS）の急速な進歩にもかかわらず、既存のビ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

Automatic Complementary Separation Pruning Toward Lightweight CNNs

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection

WriteViT: Handwritten Text Generation with Vision Transformer

Captured by Captions: On Memorization and its Mitigation in CLIP Models

JetFormer: An Autoregressive Generative Model of Raw Images and Text

FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning

最近の投稿

最近のコメント

アーカイブ

カテゴリー