-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Multimodal Long Video Modeling Based on Temporal Dynamic Context
要約 大規模な言語モデル(LLMS)の最近の進歩により、ビデオ理解の大きなブレー … 続きを読む
Learning Free Token Reduction for Multi-Modal Large Language Models
要約 ビジョン言語モデル(VLM)は、さまざまなマルチモーダルタスクで顕著な成功 … 続きを読む
RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users
要約 長老のWebベースのタスクで成功した支援を達成するには、AIエージェントは … 続きを読む
Integrating Vision and Location with Transformers: A Multimodal Deep Learning Framework for Medical Wound Analysis
要約 急性および癒しが困難な創傷の効果的な認識は、創傷診断に必要なステップです。 … 続きを読む
カテゴリー: cs.CV
Integrating Vision and Location with Transformers: A Multimodal Deep Learning Framework for Medical Wound Analysis はコメントを受け付けていません
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents
要約 グラフィカルユーザーインターフェイス(GUI)エージェントの構築における既 … 続きを読む
MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration
要約 最近、トランスネットワークは、グローバルな受容フィールドと入力への適応性に … 続きを読む
カテゴリー: cs.CV
MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration はコメントを受け付けていません
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer
要約 このペーパーでは、単一のアーキテクチャ内で生のピクセルエンコードと言語デコ … 続きを読む
カテゴリー: cs.CV
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer はコメントを受け付けていません
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
要約 マルチモーダル大手言語モデル(MLLM)は、きめ細かいピクセルレベルの理解 … 続きを読む
カテゴリー: cs.CV
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding はコメントを受け付けていません
SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting
要約 きめ細かい3Dベースのインタラクティブ編集の重要な課題は、特定のメモリ制約 … 続きを読む
Art3D: Training-Free 3D Generation from Flat-Colored Illustration
要約 大規模な事前訓練を受けた画像から3Dの生成モデルは、多様な形状の世代に顕著 … 続きを読む
カテゴリー: cs.CV
Art3D: Training-Free 3D Generation from Flat-Colored Illustration はコメントを受け付けていません