月別アーカイブ: 2025年3月

Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

投稿日: 2025年3月14日作成者: jarxiv

要約 Kolmogorov-Arnold Networks（KANS）は、データ … 続きを読む →

カテゴリー: 68T07, cs.CV, cs.LG, I.2.6 | コメントを受け付けていません

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

投稿日: 2025年3月14日作成者: jarxiv

要約一般的な推論のための視覚言語モデル（VLM）の最近の進歩により、視覚言語ア … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Charting and Navigating Hugging Face’s Model Atlas

投稿日: 2025年3月14日作成者: jarxiv

要約現在、何百万もの公開されているニューラルネットワークがあるため、大規模なモ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

投稿日: 2025年3月14日作成者: jarxiv

要約オープンソースの大型ビジョン言語モデル（LVLMS）での有望なパフォーマン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes

投稿日: 2025年3月14日作成者: jarxiv

要約このペーパーでは、v $^2 $ editを紹介します。これは、指導ガイド … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Distilling Diversity and Control in Diffusion Models

投稿日: 2025年3月14日作成者: jarxiv

要約蒸留拡散モデルは、重大な制限に悩まされています。サンプルの多様性の低下と比 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

投稿日: 2025年3月14日作成者: jarxiv

要約ミニバッチ最適な輸送カップリングは、無条件のフローマッチングでパスをまっす … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

投稿日: 2025年3月14日作成者: jarxiv

要約現在の画像生成と編集方法は、主に視覚構成や明示的な操作について推論すること … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective

投稿日: 2025年3月14日作成者: jarxiv

要約分類器のないガイダンスは、拡散モデルを除去する条件付き発電の定番となってい … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Representation Retrieval Learning for Heterogeneous Data Integration

投稿日: 2025年3月14日作成者: jarxiv

要約ビッグデータの時代では、大規模でマルチモーダルデータセットがますます遍在し … 続きを読む →

カテゴリー: cs.LG, stat.ME | コメントを受け付けていません

月別アーカイブ: 2025年3月

Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

Charting and Navigating Hugging Face’s Model Atlas

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes

Distilling Diversity and Control in Diffusion Models

The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective

Representation Retrieval Learning for Heterogeneous Data Integration

最近の投稿

最近のコメント

アーカイブ

カテゴリー