Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing

要約

テキストからイメージの生成により、拡散モデルで画期的な進歩が見られ、高忠実度の統合と、通過操作による正確な画像編集が可能になりました。
最近、自動脱着(AR)モデルは強力な代替品として再出現し、拡散モデルに合わせて次のトークン生成を活用しています。
ただし、拡散モデル向けに設計された既存の編集手法は、構造制御の基本的な違いにより、ARモデルに直接変換できません。
具体的には、ARモデルは、注意マップの空間的貧困と、画像編集中の構造エラーの連続的な蓄積に悩まされており、オブジェクトのレイアウトとグローバルな一貫性を破壊します。
この作業では、ARビジュアルモデルの最初のトレーニングフリー編集戦略である暗黙の構造ロック(ISLOCK)を紹介します。
ISLockは、明示的な注意操作や微調整に依存するのではなく、アンカートークンマッチング(ATM)プロトコルを介して参照画像を動的に整列させることにより、構造的青写真を保存します。
潜在空間の構造的一貫性を暗黙的に強制することにより、私たちのメソッドISLOCKは、生成的自律性を維持しながら、構造認識の編集を可能にします。
広範な実験は、Islockが追加のトレーニングなしで高品質で構造一貫性のある編集を達成し、従来の編集技術に優れているか、同等であることを示しています。
私たちの調査結果は、効率的かつ柔軟なARベースの画像編集の先駆者であり、拡散モデルと自己回帰生成モデルの間のパフォーマンスギャップをさらに埋めます。
このコードは、https://github.com/hutaihang/atmで公開されます

要約(オリジナル)

Text-to-image generation has seen groundbreaking advancements with diffusion models, enabling high-fidelity synthesis and precise image editing through cross-attention manipulation. Recently, autoregressive (AR) models have re-emerged as powerful alternatives, leveraging next-token generation to match diffusion models. However, existing editing techniques designed for diffusion models fail to translate directly to AR models due to fundamental differences in structural control. Specifically, AR models suffer from spatial poverty of attention maps and sequential accumulation of structural errors during image editing, which disrupt object layouts and global consistency. In this work, we introduce Implicit Structure Locking (ISLock), the first training-free editing strategy for AR visual models. Rather than relying on explicit attention manipulation or fine-tuning, ISLock preserves structural blueprints by dynamically aligning self-attention patterns with reference images through the Anchor Token Matching (ATM) protocol. By implicitly enforcing structural consistency in latent space, our method ISLock enables structure-aware editing while maintaining generative autonomy. Extensive experiments demonstrate that ISLock achieves high-quality, structure-consistent edits without additional training and is superior or comparable to conventional editing techniques. Our findings pioneer the way for efficient and flexible AR-based image editing, further bridging the performance gap between diffusion and autoregressive generative models. The code will be publicly available at https://github.com/hutaiHang/ATM

arxiv情報

著者 Taihang Hu,Linxuan Li,Kai Wang,Yaxing Wang,Jian Yang,Ming-Ming Cheng
発行日 2025-04-14 17:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing はコメントを受け付けていません

MESA: Text-Driven Terrain Generation Using Latent Diffusion and Global Copernicus Data

要約

地形モデリングは、伝統的に手続き的手法に依存してきました。これは、多くの場合、広範なドメインの専門知識と手作りのルールが必要です。
この論文では、グローバルなリモートセンシングデータに関する拡散モデルをトレーニングすることにより、新しいデータ中心の代替品であるMESAを提示します。
このアプローチは、大規模な地理空間情報を活用して、テキストの説明から高品質の地形サンプルを生成し、地形生成の柔軟でスケーラブルなソリューションを紹介します。
モデルの機能は、広範な実験を通じて実証され、現実的で多様な地形の景観を生み出す能力を強調しています。
この作業をサポートするために作成されたデータセットであるTom Core-Dem拡張データセットの主要なものは、グローバルな地形データの包括的なリソースとして公然とリリースされています。
結果は、リモートセンシングデータでトレーニングされたデータ駆動型モデルが、現実的な地形モデリングと生成のための強力なツールを提供できることを示唆しています。

要約(オリジナル)

Terrain modeling has traditionally relied on procedural techniques, which often require extensive domain expertise and handcrafted rules. In this paper, we present MESA – a novel data-centric alternative by training a diffusion model on global remote sensing data. This approach leverages large-scale geospatial information to generate high-quality terrain samples from text descriptions, showcasing a flexible and scalable solution for terrain generation. The model’s capabilities are demonstrated through extensive experiments, highlighting its ability to generate realistic and diverse terrain landscapes. The dataset produced to support this work, the Major TOM Core-DEM extension dataset, is released openly as a comprehensive resource for global terrain data. The results suggest that data-driven models, trained on remote sensing data, can provide a powerful tool for realistic terrain modeling and generation.

arxiv情報

著者 Paul Borne–Pons,Mikolaj Czerkawski,Rosalie Martin,Romain Rouffet
発行日 2025-04-14 17:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | MESA: Text-Driven Terrain Generation Using Latent Diffusion and Global Copernicus Data はコメントを受け付けていません

Multimodal Long Video Modeling Based on Temporal Dynamic Context

要約

大規模な言語モデル(LLMS)の最近の進歩により、ビデオ理解の大きなブレークスルーが発生しました。
ただし、既存のモデルは、LLMのコンテキスト長の制約とビデオ内の膨大な量の情報により、長いビデオ処理と依然として苦労しています。
いくつかの最近の方法は長いビデオ理解のために設計されていますが、トークンの圧縮中に重要な情報を失い、オーディオなどの追加のモダリティに苦労することがよくあります。
この作業では、時間的動的コンテキスト(TDC)という名前のフレーム間の時間的関係を利用して、動的な長いビデオエンコーディング方法を提案します。
まず、ビデオをフレーム間の類似性に基づいて意味的に一貫したシーンにセグメント化し、Visual-Audioエンコーダーを使用して各フレームをトークンにエンコードします。
第二に、各セグメント内のトークンの数を減らすために、新しい時間的コンテキストコンプレッサーを提案します。
具体的には、クエリベースのトランスを使用して、ビデオ、オーディオ、および命令テキストトークンを限られた時間コンテキストトークンに集約します。
最後に、ビデオ理解のために静的フレームトークンと時間的コンテキストトークンをLLMに送ります。
さらに、非常に長いビデオを処理するために、複数のビデオセグメントから回答を徐々に抽出するトレーニングなしの考え方の戦略を提案します。
これらの中間の答えは、推論プロセスの一部として機能し、最終的な答えに貢献します。
一般的なビデオの理解とオーディオビデオ理解ベンチマークについて広範な実験を実施します。この方法では、この方法が強力なパフォーマンスを示しています。
コードとモデルは、https://github.com/hoar012/tdc-videoで入手できます。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have led to significant breakthroughs in video understanding. However, existing models still struggle with long video processing due to the context length constraint of LLMs and the vast amount of information within the video. Although some recent methods are designed for long video understanding, they often lose crucial information during token compression and struggle with additional modality like audio. In this work, we propose a dynamic long video encoding method utilizing the temporal relationship between frames, named Temporal Dynamic Context (TDC). Firstly, we segment the video into semantically consistent scenes based on inter-frame similarities, then encode each frame into tokens using visual-audio encoders. Secondly, we propose a novel temporal context compressor to reduce the number of tokens within each segment. Specifically, we employ a query-based Transformer to aggregate video, audio, and instruction text tokens into a limited set of temporal context tokens. Finally, we feed the static frame tokens and the temporal context tokens into the LLM for video understanding. Furthermore, to handle extremely long videos, we propose a training-free chain-of-thought strategy that progressively extracts answers from multiple video segments. These intermediate answers serve as part of the reasoning process and contribute to the final answer. We conduct extensive experiments on general video understanding and audio-video understanding benchmarks, where our method demonstrates strong performance. The code and models are available at https://github.com/Hoar012/TDC-Video.

arxiv情報

著者 Haoran Hao,Jiaming Han,Yiyuan Zhang,Xiangyu Yue
発行日 2025-04-14 17:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Multimodal Long Video Modeling Based on Temporal Dynamic Context はコメントを受け付けていません

Learning Free Token Reduction for Multi-Modal Large Language Models

要約

ビジョン言語モデル(VLM)は、さまざまなマルチモーダルタスクで顕著な成功を収めています。
ただし、それらの実際の展開は、多くの場合、高い計算コストと長時間の推論時間によって制約されます。
ビジョンモダリティは通常、テキストモダリティよりも多くの情報を提供するため、視覚的なプロンプトを圧縮することで、これらの課題を軽減するための有望なソリューションが提供されます。
既存のアプローチは、主にモデルアーキテクチャの改良または視覚トークンの数を直接削減することに焦点を当てています。
ただし、これらの方法は、視覚データのユニークな空間的および時間的特性を考慮していないため、しばしば推論のパフォーマンスを妥協します。
この作業では、空間的および時間的次元の両方で動作するトークン圧縮パラダイムを提案します。
私たちのアプローチには、ほとんどのマルチモーダル大手言語モデル(MLLM)フレームワークにシームレスに統合できる、学習フリーのプラグアンドプレイ圧縮パイプラインが含まれています。
この方法を活用することにより、モデル推論機能を強化し、同時に計算コストを削減します。
ビデオ-QAタスクの実験結果は、提案されたアプローチの有効性を示しており、パフォーマンスを犠牲にすることなく効率の大幅な改善を示しています。

要約(オリジナル)

Vision-Language Models (VLMs) have achieved remarkable success across a range of multimodal tasks; however, their practical deployment is often constrained by high computational costs and prolonged inference times. Since the vision modality typically carries more information than the text modality, compressing visual prompts offers a promising solution to alleviate these challenges. Existing approaches predominantly focus on refining model architectures or directly reducing the number of visual tokens. However, these methods often compromise inference performance due to a lack of consideration for the unique spatial and temporal characteristics of visual data. In this work, we propose a token compression paradigm that operates on both spatial and temporal dimensions. Our approach includes a learning-free, plug-and-play compression pipeline that can be seamlessly integrated into most Multimodal Large Language Model (MLLM) frameworks. By leveraging this method, we enhance the model inference capability while simultaneously reducing its computational cost. Experimental results on the Video-QA task demonstrate the effectiveness of the proposed approach, showcasing significant improvements in efficiency without sacrificing performance.

arxiv情報

著者 Zihui Zhao,Yingxin Li,Yang Li
発行日 2025-04-14 17:34:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Learning Free Token Reduction for Multi-Modal Large Language Models はコメントを受け付けていません

RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users

要約

長老のWebベースのタスクで成功した支援を達成するには、AIエージェントは、長期間にわたって実際のユーザーの指示に順次順番に従うことができなければなりません。
既存のWebベースのエージェントベンチマークとは異なり、現実世界でフォローするシーケンシャル命令は、明確に定義された単一のタスクを実行する以外に大きな課題をもたらします。
たとえば、実際の人間の指示はあいまいであり、異なるレベルのAI支援を必要とする可能性があり、ユーザーの精神状態の変化を反映して、時間とともに進化する可能性があります。
このギャップに対処するために、RealWebassistを紹介します。これは、Webとの長老の相互作用、視覚的なGUIの接地、および曖昧な実際のユーザーの指示を理解することを含む現実的なシナリオでの連続的な指導フォローを評価するために設計された新しいベンチマークです。
RealWebassistには、現実世界の人間ユーザーから収集された順次命令のデータセットが含まれています。
各ユーザーは、複数のWebサイトで一連のタスクを実行するようにWebベースのアシスタントに指示します。
成功したエージェントは、各命令の真の意図について推論し、ユーザーの精神状態を追跡し、ユーザー固有のルーチンを理解し、意図したタスクを正しいGUI要素のアクションに接地しなければなりません。
私たちの実験結果は、最先端のモデルがユーザーの指示を理解し、接地するのに苦労しており、長老のWeb支援の実際のユーザーの指示に従うことに重大な課題を提起していることを示しています。

要約(オリジナル)

To achieve successful assistance with long-horizon web-based tasks, AI agents must be able to sequentially follow real-world user instructions over a long period. Unlike existing web-based agent benchmarks, sequential instruction following in the real world poses significant challenges beyond performing a single, clearly defined task. For instance, real-world human instructions can be ambiguous, require different levels of AI assistance, and may evolve over time, reflecting changes in the user’s mental state. To address this gap, we introduce RealWebAssist, a novel benchmark designed to evaluate sequential instruction-following in realistic scenarios involving long-horizon interactions with the web, visual GUI grounding, and understanding ambiguous real-world user instructions. RealWebAssist includes a dataset of sequential instructions collected from real-world human users. Each user instructs a web-based assistant to perform a series of tasks on multiple websites. A successful agent must reason about the true intent behind each instruction, keep track of the mental state of the user, understand user-specific routines, and ground the intended tasks to actions on the correct GUI elements. Our experimental results show that state-of-the-art models struggle to understand and ground user instructions, posing critical challenges in following real-world user instructions for long-horizon web assistance.

arxiv情報

著者 Suyu Ye,Haojun Shi,Darren Shih,Hyokun Yun,Tanya Roosta,Tianmin Shu
発行日 2025-04-14 17:36:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users はコメントを受け付けていません

Integrating Vision and Location with Transformers: A Multimodal Deep Learning Framework for Medical Wound Analysis

要約

急性および癒しが困難な創傷の効果的な認識は、創傷診断に必要なステップです。
効率的な分類モデルは、創傷の専門家が創傷の種類を財務コストと時間コストを減らして分類するのに役立ち、最適な治療法の決定にも役立ちます。
従来の機械学習モデルは機能の選択に悩まされており、通常、正確な認識のための面倒なモデルです。
最近、Deep Learning(DL)は、創傷診断の強力なツールとして浮上しています。
DLは創傷タイプの認識を約束しているようですが、モデルの効率と精度を改善するための大きな範囲がまだあります。
この研究では、DLベースのマルチモーダル分類器が創傷画像と対応する場所を使用して開発され、糖尿病、圧力、手術、静脈潰瘍などの複数のクラスに分類しました。
ボディマップも作成され、位置データを提供するために、創傷の専門家が創傷の位置をより効果的にラベル付けするのに役立ちます。
このモデルは、ビジョントランスを使用して、入力画像から階層的特徴、離散ウェーブレット変換(DWT)層を抽出して低周波数および高周波成分をキャプチャし、変圧器を抽出して空間機能を抽出します。
ニューロンの数と重量ベクターの最適化は、3つの群れベースの最適化技術(Monster Gorilla Toner(MGTO)、グレーウルフ最適化(IGWO)の改善)を使用して実行されました。
評価の結果は、最適化アルゴリズムを使用した重量ベクトル最適化が診断精度を高め、創傷検出に非常に効果的なアプローチになる可能性があることを示しています。
元のボディマップを使用した分類では、提案されたモデルは、画像データを使用して0.8123の精度と、画像データと創傷位置の組み合わせを使用して0.8007の精度を達成することができました。
また、最適化モデルと組み合わせたモデルの精度は0.7801から0.8342まで変化しました。

要約(オリジナル)

Effective recognition of acute and difficult-to-heal wounds is a necessary step in wound diagnosis. An efficient classification model can help wound specialists classify wound types with less financial and time costs and also help in deciding on the optimal treatment method. Traditional machine learning models suffer from feature selection and are usually cumbersome models for accurate recognition. Recently, deep learning (DL) has emerged as a powerful tool in wound diagnosis. Although DL seems promising for wound type recognition, there is still a large scope for improving the efficiency and accuracy of the model. In this study, a DL-based multimodal classifier was developed using wound images and their corresponding locations to classify them into multiple classes, including diabetic, pressure, surgical, and venous ulcers. A body map was also created to provide location data, which can help wound specialists label wound locations more effectively. The model uses a Vision Transformer to extract hierarchical features from input images, a Discrete Wavelet Transform (DWT) layer to capture low and high frequency components, and a Transformer to extract spatial features. The number of neurons and weight vector optimization were performed using three swarm-based optimization techniques (Monster Gorilla Toner (MGTO), Improved Gray Wolf Optimization (IGWO), and Fox Optimization Algorithm). The evaluation results show that weight vector optimization using optimization algorithms can increase diagnostic accuracy and make it a very effective approach for wound detection. In the classification using the original body map, the proposed model was able to achieve an accuracy of 0.8123 using image data and an accuracy of 0.8007 using a combination of image data and wound location. Also, the accuracy of the model in combination with the optimization models varied from 0.7801 to 0.8342.

arxiv情報

著者 Ramin Mousa,Hadis Taherinia,Khabiba Abdiyeva,Amir Ali Bengari,Mohammadmahdi Vahediahmar
発行日 2025-04-14 17:39:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Integrating Vision and Location with Transformers: A Multimodal Deep Learning Framework for Medical Wound Analysis はコメントを受け付けていません

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

要約

グラフィカルユーザーインターフェイス(GUI)エージェントの構築における既存の取り組みは、大規模な視覚言語モデル(LVLMS)で監視された微調整のトレーニングパラダイムに大きく依存しています。
ただし、このアプローチには、幅広いトレーニングデータが必要であるだけでなく、GUIスクリーンショットを効果的に理解し、目に見えないインターフェイスに一般化するのに苦労しています。
この問題は、特に高レベルのタスクでは、実際のシナリオでのアプリケーションを大幅に制限しています。
大規模な推論モデル(例えば、Deepseek-R1)の強化微調整(RFT)に触発され、実際の設定での大規模な言語モデルの問題解決機能を効率的に強化します。
By leveraging a small amount of carefully curated high-quality data across multiple platforms (including Windows, Linux, MacOS, Android, and Web) and employing policy optimization algorithms such as Group Relative Policy Optimization (GRPO) to update the model, \name achieves superior performance using only 0.02\% of the data (3K vs. 13M) compared to previous state-of-the-art methods like OS-Atlas across eight benchmarks spanning three different
プラットフォーム(モバイル、デスクトップ、およびWeb)。
これらの結果は、実世界のGUIエージェントタスクのLVLMSの実行能力を改善する際の統一されたアクション空間ルールモデリングに基づいて、強化学習の計り知れない可能性を示しています。

要約(オリジナル)

Existing efforts in building Graphical User Interface (GUI) agents largely rely on the training paradigm of supervised fine-tuning on Large Vision-Language Models (LVLMs). However, this approach not only demands extensive amounts of training data but also struggles to effectively understand GUI screenshots and generalize to unseen interfaces. The issue significantly limits its application in real-world scenarios, especially for high-level tasks. Inspired by Reinforcement Fine-Tuning (RFT) in large reasoning models (e.g., DeepSeek-R1), which efficiently enhances the problem-solving capabilities of large language models in real-world settings, we propose \name, the first reinforcement learning framework designed to enhance the GUI capabilities of LVLMs in high-level real-world task scenarios, through unified action space rule modeling. By leveraging a small amount of carefully curated high-quality data across multiple platforms (including Windows, Linux, MacOS, Android, and Web) and employing policy optimization algorithms such as Group Relative Policy Optimization (GRPO) to update the model, \name achieves superior performance using only 0.02\% of the data (3K vs. 13M) compared to previous state-of-the-art methods like OS-Atlas across eight benchmarks spanning three different platforms (mobile, desktop, and web). These results demonstrate the immense potential of reinforcement learning based on unified action space rule modeling in improving the execution capabilities of LVLMs for real-world GUI agent tasks.

arxiv情報

著者 Xiaobo Xia,Run Luo
発行日 2025-04-14 17:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC | GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents はコメントを受け付けていません

MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration

要約

最近、トランスネットワークは、グローバルな受容フィールドと入力への適応性により、画像修復の分野で優れたパフォーマンスを実証しています。
ただし、ソフトマックスアテンションの二次計算の複雑さは、特に高解像度画像の画像修復タスクにおけるその広範なアプリケーションに大きな制限をもたらします。
この課題に取り組むために、変圧器の新しいバリアントを提案します。
このバリアントは、Taylor拡張を活用してSoftmax-Attentionを近似し、Norm-Preservingマッピングの概念を利用して、1次Taylor拡張の残りの部分を近似し、線形計算の複雑さをもたらします。
さらに、提案されたトランスに埋め込まれたマルチスケールパッチを特徴とするマルチブランチアーキテクチャを紹介します。これには、4つの異なる利点があります。1)さまざまなサイズの受容フィールド。
2)マルチレベルのセマンティック情報。
3)受容フィールドの柔軟な形状。
4)加速トレーニングと推論速度。
したがって、提案されたモデルは、Taylorフォーミュラ拡張ベースの変圧器(短いMB-TaylorFormer V2の場合)の2番目のバージョンと名付けられており、粗から仕立ての特徴を同時に処理し、限られた計算コストとの長距離ピクセルの相互作用をキャプチャし、テイラー拡張の残りの近似を改善する機能を備えています。
多様な画像修復ベンチマーク全体の実験結果は、MB-TaylorFormer V2が、イメージの脱ヘージング、デレンジ、デス、モーションデブリング、除去など、複数の画像修復タスクで最先端のパフォーマンスを達成し、計算オーバーヘッドがほとんどないことを示しています。
ソースコードは、https://github.com/fvl2020/mb-taylorformerv2で入手できます。

要約(オリジナル)

Recently, Transformer networks have demonstrated outstanding performance in the field of image restoration due to the global receptive field and adaptability to input. However, the quadratic computational complexity of Softmax-attention poses a significant limitation on its extensive application in image restoration tasks, particularly for high-resolution images. To tackle this challenge, we propose a novel variant of the Transformer. This variant leverages the Taylor expansion to approximate the Softmax-attention and utilizes the concept of norm-preserving mapping to approximate the remainder of the first-order Taylor expansion, resulting in a linear computational complexity. Moreover, we introduce a multi-branch architecture featuring multi-scale patch embedding into the proposed Transformer, which has four distinct advantages: 1) various sizes of the receptive field; 2) multi-level semantic information; 3) flexible shapes of the receptive field; 4) accelerated training and inference speed. Hence, the proposed model, named the second version of Taylor formula expansion-based Transformer (for short MB-TaylorFormer V2) has the capability to concurrently process coarse-to-fine features, capture long-distance pixel interactions with limited computational cost, and improve the approximation of the Taylor expansion remainder. Experimental results across diverse image restoration benchmarks demonstrate that MB-TaylorFormer V2 achieves state-of-the-art performance in multiple image restoration tasks, such as image dehazing, deraining, desnowing, motion deblurring, and denoising, with very little computational overhead. The source code is available at https://github.com/FVL2020/MB-TaylorFormerV2.

arxiv情報

著者 Zhi Jin,Yuwei Qiu,Kaihao Zhang,Hongdong Li,Wenhan Luo
発行日 2025-04-14 17:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration はコメントを受け付けていません

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

要約

このペーパーでは、単一のアーキテクチャ内で生のピクセルエンコードと言語デコードを統合する単一の変圧器統一マルチモーダル大手言語モデル(MLLM)であるSailを紹介します。
事前に訓練されたビジョントランス(VIT)に依存する既存のモジュラーMLLMとは異なり、セールは個別のビジョンエンコーダーの必要性を排除し、よりミニマリストのアーキテクチャデザインを提示します。
Sailは、新しいアーキテクチャコンポーネントを導入する代わりに、視覚的およびテキストモダリティの明確な特性とより適切に整合するために、混合オーテンションメカニズムとマルチモーダル位置エンコーディングを適応させます。
Modular MLLMのスケーラビリティ、クロスモーダル情報フローパターン、および視覚表現機能を含むSailのプロパティを体系的に比較します。
トレーニングデータとモデルサイズの両方をスケーリングすることにより、SailはモジュラーMLLMに匹敵するパフォーマンスを実現します。
特に、前処理されたVIT成分を除去すると、Sailのスケーラビリティが向上し、クロスモーダルの情報フローパターンが大幅に異なります。
さらに、Sailは強力な視覚表現能力を示し、セマンティックセグメンテーションなどのビジョンタスクでVIT-22Bと同等の結果を達成します。
コードとモデルはhttps://github.com/bytedance/sailで入手できます。

要約(オリジナル)

This paper introduces SAIL, a single transformer unified multimodal large language model (MLLM) that integrates raw pixel encoding and language decoding within a singular architecture. Unlike existing modular MLLMs, which rely on a pre-trained vision transformer (ViT), SAIL eliminates the need for a separate vision encoder, presenting a more minimalist architecture design. Instead of introducing novel architectural components, SAIL adapts mix-attention mechanisms and multimodal positional encodings to better align with the distinct characteristics of visual and textual modalities. We systematically compare SAIL’s properties-including scalability, cross-modal information flow patterns, and visual representation capabilities-with those of modular MLLMs. By scaling both training data and model size, SAIL achieves performance comparable to modular MLLMs. Notably, the removal of pretrained ViT components enhances SAIL’s scalability and results in significantly different cross-modal information flow patterns. Moreover, SAIL demonstrates strong visual representation capabilities, achieving results on par with ViT-22B in vision tasks such as semantic segmentation. Code and models are available at https://github.com/bytedance/SAIL.

arxiv情報

著者 Weixian Lei,Jiacong Wang,Haochen Wang,Xiangtai Li,Jun Hao Liew,Jiashi Feng,Zilong Huang
発行日 2025-04-14 17:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer はコメントを受け付けていません

Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

要約

マルチモーダル大手言語モデル(MLLM)は、きめ細かいピクセルレベルの理解タスクの顕著なパフォーマンスを実現します。
ただし、すべての作業は、Visionエンコーダー(クリップ)、セグメンテーションの専門家などの追加のコンポーネントに大きく依存しており、システムの複雑さが高く、モデルのスケーリングを制限しています。
この作業では、私たちの目標は、追加のコンポーネントを導入することなく、高度に単純化されたMLLMを探索することです。
私たちの作品は、統一されたビジョン言語モデル(SAIL)デザインとしてのシングルトランスに関する最近の作品によって動機付けられています。これらの作業は、変圧器のビジョントークンとテキストトークンを共同で学習します。
ピクセルごとのMLLMタスク用の単一の変圧器であるPixel-Sailを提示します。
特に、プレーンベースラインで3つの技術的改善を提示します。
まず、視覚的なトークン機能を改良するために、学習可能なアップサンプリングモジュールを設計します。
第二に、単一の変圧器が視覚的な迅速な入力を理解し、視覚的なプロンプトの埋め込みとビジョントークンの早期融合から利益を得ることができるようにする新しい視覚的な促進噴射戦略を提案します。
第三に、ビジョンの専門家蒸留戦略を導入して、単一の変圧器の微細な特徴抽出能力を効率的に強化します。
さらに、手動チェックを使用して、包括的なピクセル理解ベンチマーク(パーベンチ)を収集しました。
3つのタスクが含まれています。詳細なオブジェクト説明、視覚的なプロンプトベースの質問応答、視覚テキスト参照セグメンテーション。
4つの参照セグメンテーションベンチマーク、1つの視覚的なプロンプトベンチマーク、およびパーベンチでの広範な実験は、ピクセルセールがよりシンプルなパイプラインで同等またはさらに良い結果を達成することを示しています。
コードとモデルはhttps://github.com/magic-research/sa2vaでリリースされます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) achieve remarkable performance for fine-grained pixel-level understanding tasks. However, all the works rely heavily on extra components, such as vision encoder (CLIP), segmentation experts, leading to high system complexity and limiting model scaling. In this work, our goal is to explore a highly simplified MLLM without introducing extra components. Our work is motivated by the recent works on Single trAnsformer as a unified vIsion-Language Model (SAIL) design, where these works jointly learn vision tokens and text tokens in transformers. We present Pixel-SAIL, a single transformer for pixel-wise MLLM tasks. In particular, we present three technical improvements on the plain baseline. First, we design a learnable upsampling module to refine visual token features. Secondly, we propose a novel visual prompt injection strategy to enable the single transformer to understand visual prompt inputs and benefit from the early fusion of visual prompt embeddings and vision tokens. Thirdly, we introduce a vision expert distillation strategy to efficiently enhance the single transformer’s fine-grained feature extraction capability. In addition, we have collected a comprehensive pixel understanding benchmark (PerBench), using a manual check. It includes three tasks: detailed object description, visual prompt-based question answering, and visual-text referring segmentation. Extensive experiments on four referring segmentation benchmarks, one visual prompt benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or even better results with a much simpler pipeline. Code and model will be released at https://github.com/magic-research/Sa2VA.

arxiv情報

著者 Tao Zhang,Xiangtai Li,Zilong Huang,Yanwei Li,Weixian Lei,Xueqing Deng,Shihao Chen,Shunping Ji,Jiashi Feng
発行日 2025-04-14 17:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding はコメントを受け付けていません