投稿者「jarxiv」のアーカイブ

Multimodal Long Video Modeling Based on Temporal Dynamic Context

要約 大規模な言語モデル(LLMS)の最近の進歩により、ビデオ理解の大きなブレー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Multimodal Long Video Modeling Based on Temporal Dynamic Context はコメントを受け付けていません

Learning Free Token Reduction for Multi-Modal Large Language Models

要約 ビジョン言語モデル(VLM)は、さまざまなマルチモーダルタスクで顕著な成功 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Learning Free Token Reduction for Multi-Modal Large Language Models はコメントを受け付けていません

RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users

要約 長老のWebベースのタスクで成功した支援を達成するには、AIエージェントは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users はコメントを受け付けていません

Integrating Vision and Location with Transformers: A Multimodal Deep Learning Framework for Medical Wound Analysis

要約 急性および癒しが困難な創傷の効果的な認識は、創傷診断に必要なステップです。 … 続きを読む

カテゴリー: cs.CV | Integrating Vision and Location with Transformers: A Multimodal Deep Learning Framework for Medical Wound Analysis はコメントを受け付けていません

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

要約 グラフィカルユーザーインターフェイス(GUI)エージェントの構築における既 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.HC | GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents はコメントを受け付けていません

MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration

要約 最近、トランスネットワークは、グローバルな受容フィールドと入力への適応性に … 続きを読む

カテゴリー: cs.CV | MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration はコメントを受け付けていません

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

要約 このペーパーでは、単一のアーキテクチャ内で生のピクセルエンコードと言語デコ … 続きを読む

カテゴリー: cs.CV | The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer はコメントを受け付けていません

Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

要約 マルチモーダル大手言語モデル(MLLM)は、きめ細かいピクセルレベルの理解 … 続きを読む

カテゴリー: cs.CV | Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding はコメントを受け付けていません

SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting

要約 きめ細かい3Dベースのインタラクティブ編集の重要な課題は、特定のメモリ制約 … 続きを読む

カテゴリー: cs.CV, cs.GR | SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting はコメントを受け付けていません

Art3D: Training-Free 3D Generation from Flat-Colored Illustration

要約 大規模な事前訓練を受けた画像から3Dの生成モデルは、多様な形状の世代に顕著 … 続きを読む

カテゴリー: cs.CV | Art3D: Training-Free 3D Generation from Flat-Colored Illustration はコメントを受け付けていません