月別アーカイブ: 2025年5月

Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model for Vision

投稿日: 2025年5月20日作成者: jarxiv

要約中心のビジョンに触発されたハードオーテストモデルは、解釈性とパラメーター経 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MatPredict: a dataset and benchmark for learning material properties of diverse indoor objects

投稿日: 2025年5月20日作成者: jarxiv

要約カメラ画像から材料特性を決定することで、屋内環境で複雑なオブジェクトを識別 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

EndoMetric: Near-Light Monocular Metric Scale Estimation in Endoscopy

投稿日: 2025年5月20日作成者: jarxiv

要約幾何学的な再構築と内視鏡画像によるスラムは、近年大幅に進歩しています。ほ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MAGI-1: Autoregressive Video Generation at Scale

投稿日: 2025年5月20日作成者: jarxiv

要約連続したフレームの固定長セグメントとして定義された一連のビデオチャンクを自 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes

投稿日: 2025年5月20日作成者: jarxiv

要約建設、改修、解体などの道路や橋の変化の正確な検出は、都市計画と交通管理に不 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

投稿日: 2025年5月20日作成者: jarxiv

要約動的な3Dシーンの再構築における最近の進歩により、有望な結果が示されており … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

投稿日: 2025年5月20日作成者: jarxiv

要約拡散変圧器（DITS）は、変圧器アーキテクチャの組み込みを通じて、画像生成 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Automatic Complementary Separation Pruning Toward Lightweight CNNs

投稿日: 2025年5月20日作成者: jarxiv

要約この論文では、畳み込みニューラルネットワークのための新規で完全に自動化され … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

投稿日: 2025年5月20日作成者: jarxiv

要約グラフィカルユーザーインターフェイス（GUI）の接地、グラフィカルユーザー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | コメントを受け付けていません

StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

投稿日: 2025年5月20日作成者: jarxiv

要約データからの堅牢な表現を学習するには、多くの場合、スケールが必要であり、ク … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年5月

Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model for Vision

MatPredict: a dataset and benchmark for learning material properties of diverse indoor objects

EndoMetric: Near-Light Monocular Metric Scale Estimation in Endoscopy

MAGI-1: Autoregressive Video Generation at Scale

RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes

Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

Automatic Complementary Separation Pruning Toward Lightweight CNNs

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

最近の投稿

最近のコメント

アーカイブ

カテゴリー