月別アーカイブ: 2025年3月

Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

要約 Kolmogorov-Arnold Networks(KANS)は、データ … 続きを読む

カテゴリー: 68T07, cs.CV, cs.LG, I.2.6 | Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers? はコメントを受け付けていません

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

要約 一般的な推論のための視覚言語モデル(VLM)の最近の進歩により、視覚言語ア … 続きを読む

カテゴリー: cs.CV, cs.RO | HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model はコメントを受け付けていません

Charting and Navigating Hugging Face’s Model Atlas

要約 現在、何百万もの公開されているニューラルネットワークがあるため、大規模なモ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Charting and Navigating Hugging Face’s Model Atlas はコメントを受け付けていません

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

要約 オープンソースの大型ビジョン言語モデル(LVLMS)での有望なパフォーマン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 はコメントを受け付けていません

V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes

要約 このペーパーでは、v $^2 $ editを紹介します。これは、指導ガイド … 続きを読む

カテゴリー: cs.CV | V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes はコメントを受け付けていません

Distilling Diversity and Control in Diffusion Models

要約 蒸留拡散モデルは、重大な制限に悩まされています。サンプルの多様性の低下と比 … 続きを読む

カテゴリー: cs.CV, cs.GR | Distilling Diversity and Control in Diffusion Models はコメントを受け付けていません

The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

要約 ミニバッチ最適な輸送カップリングは、無条件のフローマッチングでパスをまっす … 続きを読む

カテゴリー: cs.CV, cs.LG | The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation はコメントを受け付けていません

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

要約 現在の画像生成と編集方法は、主に視覚構成や明示的な操作について推論すること … 続きを読む

カテゴリー: cs.CV | GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing はコメントを受け付けていません

Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective

要約 分類器のないガイダンスは、拡散モデルを除去する条件付き発電の定番となってい … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective はコメントを受け付けていません

Representation Retrieval Learning for Heterogeneous Data Integration

要約 ビッグデータの時代では、大規模でマルチモーダルデータセットがますます遍在し … 続きを読む

カテゴリー: cs.LG, stat.ME | Representation Retrieval Learning for Heterogeneous Data Integration はコメントを受け付けていません