月別アーカイブ: 2025年4月

Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing

要約 テキストからイメージの生成により、拡散モデルで画期的な進歩が見られ、高忠実 … 続きを読む

カテゴリー: cs.CV | Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing はコメントを受け付けていません

MESA: Text-Driven Terrain Generation Using Latent Diffusion and Global Copernicus Data

要約 地形モデリングは、伝統的に手続き的手法に依存してきました。これは、多くの場 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | MESA: Text-Driven Terrain Generation Using Latent Diffusion and Global Copernicus Data はコメントを受け付けていません

Multimodal Long Video Modeling Based on Temporal Dynamic Context

要約 大規模な言語モデル(LLMS)の最近の進歩により、ビデオ理解の大きなブレー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Multimodal Long Video Modeling Based on Temporal Dynamic Context はコメントを受け付けていません

Learning Free Token Reduction for Multi-Modal Large Language Models

要約 ビジョン言語モデル(VLM)は、さまざまなマルチモーダルタスクで顕著な成功 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Learning Free Token Reduction for Multi-Modal Large Language Models はコメントを受け付けていません

RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users

要約 長老のWebベースのタスクで成功した支援を達成するには、AIエージェントは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users はコメントを受け付けていません

Integrating Vision and Location with Transformers: A Multimodal Deep Learning Framework for Medical Wound Analysis

要約 急性および癒しが困難な創傷の効果的な認識は、創傷診断に必要なステップです。 … 続きを読む

カテゴリー: cs.CV | Integrating Vision and Location with Transformers: A Multimodal Deep Learning Framework for Medical Wound Analysis はコメントを受け付けていません

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

要約 グラフィカルユーザーインターフェイス(GUI)エージェントの構築における既 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.HC | GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents はコメントを受け付けていません

MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration

要約 最近、トランスネットワークは、グローバルな受容フィールドと入力への適応性に … 続きを読む

カテゴリー: cs.CV | MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration はコメントを受け付けていません

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

要約 このペーパーでは、単一のアーキテクチャ内で生のピクセルエンコードと言語デコ … 続きを読む

カテゴリー: cs.CV | The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer はコメントを受け付けていません

Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

要約 マルチモーダル大手言語モデル(MLLM)は、きめ細かいピクセルレベルの理解 … 続きを読む

カテゴリー: cs.CV | Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding はコメントを受け付けていません